这是一个自学爬虫的项目,最终目标是爬取数学家系谱图计划(Mathematical Genealogy Project)的数据库。 主要搭建了scrapy框架爬取,并用sqlite3写入数据库。
-
北理工python爬虫公开课,主要介绍requests库和bs4库,附带一点点scrapy框架。适合不想看英语的python初学者,但年代较久远,后面的示例已经失效。子文件夹learn_crawler是一些杂乱的课堂笔记。
-
QQ空间说说爬取,使用了selenium库和chrome浏览器驱动模拟填写表单登录QQ空间。代码仍然有效,复制粘贴即可。
-
一个类似的mgp scraper,我参考了它将数据以数据库形式存储。
-
Python 网络数据采集 Ryan Mitchell,在北理工课程基础上多介绍了一些(比如数据库)。Github上有配套的项目代码。第一版有中文翻译(科技书中为数不多较有个性的翻译),第二版中加入了scrapy章节,浅尝辄止且大部分是官方文档摘录。
-
Learning scrapy。主要介绍scrapy库,第一版有人翻译成中文发布在简书上,不过第一版介绍的scrapy版本较老,注意有一些关键词的用法变更。其中结合chrome检查页面功能介绍并获取xpath的部分非常有趣,还介绍了scrapy的shell用法,可以呼出ipython kernel交互,适合scrapy框架编写前的调试。
-
Getting Started with SQL。主要介绍sql语言和一些数据库的基本操作,非常简短,适合随时查阅。
还学了一丢丢的html语法树、xpath语言和正则表达式,爽!
近三十万个页面,服务器爬取用时近10小时。