Skip to content
This repository has been archived by the owner on Oct 1, 2021. It is now read-only.

vicety/Pixiv-Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

50 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Pixiv-Crawler

这是一个scrapy框架的爬虫 基于win10Python 3.6.2 64位Scrapy 1.4.0开发
Ubuntu 16.04Python 3.5.2 64位
ArchlinuxPython 3.6.2 64位
win10Python 3.6.2Python 3.5.2下测试成功

注意

2021/10/01 update: 此repo已经很久没有维护,应该是不可用了,不推荐代码参考以外的用途

2018/11/21 update: P站又改网页了,由于个人原因,短期内不会更新代码,目前已知按作者爬取已不可用, 但按收藏爬取和按搜索关键词爬取仍然是可用的。

功能

  • 我的收藏导出
  • 画师作品导出
  • 搜索图片导出
  • 日榜导出
  • 所有导出均支持图片大小筛选
  • 指定导出位置

未完成部分

  • 增加一些其他的插画网站
  • 一些细节
  • 多图片网页暂不能命名文件

requirements

  • python
  • scrapy
  • requests
  • pillow
  • pypiwin32 // 可能需要
  • imageio //下载gif时需要
  • 如果还缺少什么,一般直接pip install就可以了

使用方法

先在settings.ini进行配置,然后在main.py文件目录下进入cmd, 输入python main.py

Setting文件配置说明

[PRJ]  
/* 
四种执行方式之一
COLLECTION  收藏
COLLECTION_PRIVATE 非公开收藏
ARTIST 画师作品
SEARCH 搜索内容
DAILY 日榜
*/
TARGET = COLLECTION  
ACCOUNT = 
PASSWORD = 

[IMG] 
MIN_WIDTH = 0	//图片筛选条件
MIN_HEIGHT = 0
MIN_FAV = 0		
STORE_PATH = ./images		// 图片储存目录,默认为工程目录下的image
R18 = False		//仅下载R18
MULI_IMG_ENABLED = False	// 是否下载图集

[ART]	// 不受IMG中的收藏数限制
ID = 123456 // 画师ID,多个以空格分隔

[SRH]
TAGS = TAG_A TAG_B ... // 搜索内容

[DAILY] // 不受IMG中的收藏数限制

其他

  • 如果在浏览器无法登陆pixiv或爬取时速度较慢,可以尝试修改host文件
  • 由于P站限制,搜索功能最多搜索1000页,可以通过添加类似“1000users入り”(不含引号)这样的tag来缩小搜索范围
  • 请确保用户语言为简体中文
  • 如果提示setting文件编码问题,请尝试在编辑settings.ini文件时使用utf-8编码

版本日志

V1.2.3

增加对COLLECTION中爬取内容的追踪,过滤曾经爬过的图片,以支持个人收藏的快速更新
对文件存储结构和打印日志部分的优化
支持爬取非公开收藏

V1.2.2

应对Pixiv的页面改动,修改了部分数据的获取接口
由于找不到接口,不再支持Gif文件(如果找到了,还请通知一下)

V1.2.1

指定目录不存在时自动创建
增加图集的下载和Title抓取
同时抓取图片相关信息,以json格式存储
存储cookie以自动登录

V1.2.0

增加了日榜导出功能
增加了settings文件格式检查

V1.1

可以同时添加多个画师
修复搜索时日语编码问题
修改了setting文件结构,可以配置默认账号密码
修复了打印日志上的一些问题

V1.0

初始版本

最后,初次写爬虫,写得不是很好,有任何问题欢迎指教

About

Scrapy框架下的pixiv多功能爬虫

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages