GitHub - ZRXXUAN/news-webscraping: 基于Scrapy的新闻爬虫，利用Redis和MongoDB来避免重复爬取和数据的保存，有用到代理池来反反爬，保存的字段为标题、时间、正文、URL、作者/来源、来源URL。爬取对象为网易/腾讯/新浪/搜狐这四个门户网站，爬取板块为新闻/科技/娱乐/财经四大板块。

ZRXXUAN / news-webscraping Public

基于Scrapy的新闻爬虫，利用Redis和MongoDB来避免重复爬取和数据的保存，有用到代理池来反反爬，保存的字段为标题、时间、正文、URL、作者/来源、来源URL。爬取对象为网易/腾讯/新浪/搜狐这四个门户网站，爬取板块为新闻/科技/娱乐/财经四大板块。

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
news		news
Dockerfile		Dockerfile
crontab_task		crontab_task
log		log
requirements.txt		requirements.txt
run.py		run.py

About

No releases published

No packages published