GitHub - Anionex/zsxq-crawler-pro: 爬取知识星球内容并制作成美观的PDF电子书。由crawl-zsxq项目编辑而来，增加批量爬取功能和美化pdf

如果觉得本项目有用，欢迎fork&star!

模拟登陆

爬取的是网页版知识星球，https://wx.zsxq.com/dweb/#。

这个网站并不是依靠 cookie 来判断你是否登录，而是请求头中的 Authorization 字段。

所以，需要把 Authorization，User-Agent 换成你自己的。（注意 User-Agent 也要换成你自己的）

代码中找到如下字段更改，Authorization，User-Agent可在网络活动检测处获取（edge为F12

headers = {
   'Authorization': '3704A4EE-377E-1C88-B031-0A42D9E9Bxxx',
   'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
}

使用说明：

链接入口获取，浏览器开发选项网络检测异步加载/XHR，找到topics?字样链接，比如https://api.zsxq.com/v1.10/groups/2421112121/topics?scope=digests&count=20，即为入口程序中还需填入 urls.txt写入链接，一个一行。 titles.txt写入标签名称，一个一行，和urls顺序对应。

爬虫将会逐个爬取urls中的链接，生成pdf。

技术交流，欢迎链接wx：anion1314

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
.idea		.idea
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
crawl.py		crawl.py
csv_module.py		csv_module.py
links.csv		links.csv
main.py		main.py
requirements.txt		requirements.txt
test.css		test.css
test.json		test.json
test.py		test.py
titles.txt		titles.txt
urls.txt		urls.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

模拟登陆

使用说明：

About

Releases

Packages

Contributors 2

Languages

License

Anionex/zsxq-crawler-pro

Folders and files

Latest commit

History

Repository files navigation

模拟登陆

使用说明：

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages