- scrapy框架爬取,selenium用于处理验证码以及登陆。
- 支持爬取公众号主体以及相关文章。
- 只需登陆一次,自动存储用户凭证。
- 可接入代理池,自由切换代理。
- 遇到验证码反爬,可截取验证码图片,等待用户输入正确验证码。
- 设置setting中的最大爬取页数MAX_PAGE。
- 启动命令:
scrapy crawl sogou_weixin
- 根据提示输入想爬取的关键字,例如:吉他
- 如果想以表格形式导出爬取内容:
scrapy crawl sogou_weixin -o xxxx.csv
- 如果想接入proxy池,先在setting中设置PROXY_URL。然后取消middleware.py中proxy中间件的注释。
- 接入第三方打码平台 ...... [ ]