Skip to content

Latest commit

 

History

History
38 lines (33 loc) · 1.48 KB

README.md

File metadata and controls

38 lines (33 loc) · 1.48 KB

recalliNfomation

day 3

任务待处理 + 新增自动化功能

序列 任务名称 完成状态
q1 base64存储 已处理
q2 对url链接进行乱序处理 已处理
q3 增加mysql连接池 待处理
q4 数据库url和表名放入csv中 已处理
q5 接入IP代理池 待处理
q6 使用redis建立IP代理池库原型 待处理
q7 筛选出2016/2017/2018年的url信息 已处理
q8 增加保存当前URL位置的持久化方法 已处理
q9 增加自动程序监控器,爬虫自动重启 已处理
q10 自动程序监控器,爬取完毕自动停止 待处理

day 4

任务待处理 + 功能分类细化

序列 任务名称 完成状态
q1 base64存储 已处理
q2 对url链接进行乱序处理 已处理
q3 增加mysql连接池 待处理
q4 数据库url和表名放入csv中 已处理
q5 接入IP代理池 待处理
q6 使用redis建立IP代理池库原型 待处理
q7 筛选出2016/2017/2018年的url信息 已处理
q8 增加保存当前URL位置的持久化方法 已处理
q9 增加自动程序监控器,爬虫自动重启 已处理
q10 自动程序监控器,爬取完毕自动停止 已处理
q11 划分功能模块 待处理

day 8

增添监督器的自动重启功能,定时重启更新访问会话SESSIONID

改良了过滤器