继续以国家企业信用信息公示系统为例。补充一个完成度80%的项目和文档。代码实现主要参考https://zhuanlan.zhihu.com/windev的相关分析文章。
使用requests
库。
使用Pillow
库,实现滑块拼图位置的精确定位。
全局变量IMAGE_DEBUG
,实现不同精准度的图片本地临时文件存储,以便观察定位效果和改进。
使用PyExecJS
库,执行GeeTest Javascript方法,获得正确的明文和密文。
配合NodeJS
使用更佳。
- 完善用户鼠标轨迹运行的数据仿真算法。
- 补全官网针对爬虫返回 HTTP 521 的处理,补全Cookie校验逻辑。
pip install requests
pip install Pillow
pip install PyExecJS
pip install beautifulsoup4