GitHub - bucm-policy-search/webSpider

如何使用

按照官方教程安装 pdm，使用pdm管理python包是因为python的原生包管理和Node相比实在是灾难，输出的requirements.txt有大堆普通开发者或使用者不想关注的细节（包），无法分清包依赖关系
git clone下载仓库内容
在仓库根目录执行pdm install
安装过程中，可以从Docker的Elasticsearch容器中将.crt文件复制到本仓库中

（可选）如果需要爬虫时自动将数据存储到后台的数据库，在README.md同层目录创建.env文件，配置如下内容

# change the following "CHANGEME" to real params
USERNAME=CHANGEME
PASSWORD=CHANGEME

HOST=localhost
PORT=9200
URL=https://${HOST}:${PORT}

ES_INDEX=CHANGEME
CERT="ca.crt"

后台定时爬虫

找到start_crawl.py所在位置并用 pm2 后台管理
找到当前虚拟环境所在地址（绝对路径），替代下面的 /path/to/venv/bin/python

代码样例：pm2 start start_crawl.py --interpreter=/path/to/venv/bin/python

该样例会在每天默认时间开启全网页爬虫。你也可通过 python start_crawl.py -h获取更多参数相关信息

单次爬虫

进入虚拟环境并启动虚拟环境：source developEnv/bin/activate（退出虚拟环境用deactivate）
进入对应的项目文件夹中（如 venv/webSpider，即scrapy.cfg存在文件夹），可执行对应 spider，如scrapy crawl BATCM -O output/result.json。**注意：**使用默认设置会爬取某网页 2 个子页面内包含的所有子网页，而且为了防止被反爬虫限制了爬取速度，速度较慢，预计需 5 分钟

常见问题

被创宇云防御（云 WAF 类）拦下

过一两分钟可继续正常访问，注意要到文件根目录（含scrapy.cfg）运行scrapy shell；或修改 User-Agent，如scrapy shell -s USER_AGENT='Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' 'http://zyj.beijing.gov.cn/sy/tzgg/'

如何手动批量导入爬取的 json 格式数据

新回答：在用 jq 对 json 解码后，用官方bulk api（此处给的是 Node.js 版本）。原回答废弃原因是，对于 jq 转换成的\"，echo、printf 等其他输出函数在 pipe 输出时会将 json 值中的\"在 bulk 前就转换成"，从而导致输入到 Elasticsearch 中出错。且暂时无解，'\'等常见转义字符可以取消转换，但暂未见到针对\"解决方式的回答。

原回答（废弃不用）：导入[{},{}]类型 Json 文件，参考此 elasticsearch 回答使用elastic bulk REST API

网络异常，Console 出现大量报错

如出现大批量诸如 "OSError: [Error 101] Network is unreachable" 之类的错误，静等 1~2 分钟，等错误所有都跳过即可。在不用“梯子”的情况下，fake-useragent无法访问 w3schools, heroku 之类的数据源，且会多次重试链接。虽然无法使用随机 UA，已设置了默认的 UA，错误不用理会。

注意事项

建议熟悉 scrapy 库（可参照scrapy 文档），并使用scrapy shell协助调试（记得要修改 Shell 的 User-Agent）。
用 scrapy 库时记得要用 virtualenv 或 conda 等创建虚拟环境
涉及正则部分可阅读 learn-regex-zh，并借助诸如 regex101、scrapy command line 工具来辅助获取内容
如何将\uXXXX格式代码转换为对应的汉字：安装jq，并执行诸如cat in.json | jq > out.json代码。另外，强烈推荐学一学 jq，该Tutorial10 分钟。jq 能解决非常多常见的 JSON 转换问题，实属 JSON 利器
本仓库 python 的linter和formatter分别使用了flake8和black

爬虫目录

详见crawling-catalog.md

Name		Name	Last commit message	Last commit date
Latest commit History 47 Commits
webSpider		webSpider
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
crawling-catalog.md		crawling-catalog.md
install.log		install.log
package-lock.json		package-lock.json
package.json		package.json
pdm.lock		pdm.lock
pyproject.toml		pyproject.toml
scrapy.cfg		scrapy.cfg
start_crawl.py		start_crawl.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

如何使用

后台定时爬虫

单次爬虫

常见问题

被创宇云防御（云 WAF 类）拦下

如何手动批量导入爬取的 json 格式数据

网络异常，Console 出现大量报错

注意事项

爬虫目录

About

Releases

Packages

Contributors 2

Languages

License

bucm-policy-search/webSpider

Folders and files

Latest commit

History

Repository files navigation

如何使用

后台定时爬虫

单次爬虫

常见问题

被创宇云防御（云 WAF 类）拦下

如何手动批量导入爬取的 json 格式数据

网络异常，Console 出现大量报错

注意事项

爬虫目录

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages