这是一个scrapy框架的爬虫
基于win10
、Python 3.6.2 64位
、Scrapy 1.4.0
开发
在Ubuntu 16.04
、Python 3.5.2 64位
Archlinux
、Python 3.6.2 64位
win10
、Python 3.6.2
、Python 3.5.2
下测试成功
2021/10/01 update: 此repo已经很久没有维护,应该是不可用了,不推荐代码参考以外的用途
2018/11/21 update: P站又改网页了,由于个人原因,短期内不会更新代码,目前已知按作者爬取已不可用, 但按收藏爬取和按搜索关键词爬取仍然是可用的。
- 我的收藏导出
- 画师作品导出
- 搜索图片导出
- 日榜导出
- 所有导出均支持图片大小筛选
- 指定导出位置
- 增加一些其他的插画网站
- 一些细节
- 多图片网页暂不能命名文件
- python
- scrapy
- requests
- pillow
- pypiwin32 // 可能需要
- imageio //下载gif时需要
- 如果还缺少什么,一般直接pip install就可以了
先在settings.ini
进行配置,然后在main.py
文件目录下进入cmd, 输入python main.py
[PRJ]
/*
四种执行方式之一
COLLECTION 收藏
COLLECTION_PRIVATE 非公开收藏
ARTIST 画师作品
SEARCH 搜索内容
DAILY 日榜
*/
TARGET = COLLECTION
ACCOUNT =
PASSWORD =
[IMG]
MIN_WIDTH = 0 //图片筛选条件
MIN_HEIGHT = 0
MIN_FAV = 0
STORE_PATH = ./images // 图片储存目录,默认为工程目录下的image
R18 = False //仅下载R18
MULI_IMG_ENABLED = False // 是否下载图集
[ART] // 不受IMG中的收藏数限制
ID = 123456 // 画师ID,多个以空格分隔
[SRH]
TAGS = TAG_A TAG_B ... // 搜索内容
[DAILY] // 不受IMG中的收藏数限制
- 如果在浏览器无法登陆pixiv或爬取时速度较慢,可以尝试修改host文件
- 由于P站限制,搜索功能最多搜索1000页,可以通过添加类似“1000users入り”(不含引号)这样的tag来缩小搜索范围
- 请确保用户语言为简体中文
- 如果提示setting文件编码问题,请尝试在编辑settings.ini文件时使用utf-8编码
增加对COLLECTION中爬取内容的追踪,过滤曾经爬过的图片,以支持个人收藏的快速更新
对文件存储结构和打印日志部分的优化
支持爬取非公开收藏
应对Pixiv的页面改动,修改了部分数据的获取接口
由于找不到接口,不再支持Gif文件(如果找到了,还请通知一下)
指定目录不存在时自动创建
增加图集的下载和Title抓取
同时抓取图片相关信息,以json格式存储
存储cookie以自动登录
增加了日榜导出功能
增加了settings文件格式检查
可以同时添加多个画师
修复搜索时日语编码问题
修改了setting文件结构,可以配置默认账号密码
修复了打印日志上的一些问题
初始版本
最后,初次写爬虫,写得不是很好,有任何问题欢迎指教