众所周知,人工智能的这次浪潮和深度学习技术的突破密不可分,却很少有人会谈论另一位幕后英雄,即数据。如果不是网络上有如此多的图片,李飞飞教授也无法构建近千万的标注图片集合 ImageNet,从而成就深度学习技术在图像识别领域的突破。如果不是在网络上有了如此多的聊天数据,小冰也不会学习到人类的情商,在聊天中带给人类惊喜、欢笑和抚慰。人工智能的进步离不开数据和算法的结合,人类无意间产生的数据却能够让机器学习到超乎想象的 “智慧”,反过来服务人类。
在互联网时代,强大的爬虫技术造就了很多伟大的搜索引擎公司,让人类的记忆搜索能力得到巨大的延展。今天在移动互联网时代,爬虫技术仍然是支撑一些信息融合应用(如今日头条)的关键技术。但是,今天爬虫技术面临着更大的挑战。与互联网的共享机制不同,很多资源只有在登录之后才能访问,还采取了各种反爬虫措施,这就让爬虫不那么容易访问这些资源。无论是产品还是研究,都需要大量的优质数据来让机器更加智能。因此,在这个时代,大量的从业者急需一本全面介绍爬虫技术的书。如果你需要了解全面和前沿的爬虫技术,而且想迅速地上手实战,这本书就是首选。
我很荣幸认识崔庆才先生,他目前还是一名北京航空航天大学在读研究生,正处在一个对技术狂热追求的年纪。我听他讲了一些修炼爬虫技术的故事,很有意思。他在本科的时候因为一个项目开始接触爬虫,之后他用爬虫竟然得到了所在学校同学的照片,还帮助他的哥们儿追其他系的女孩。我问他是否也是用这些信息找到了女友,他甩了下头发,酷酷地说:“需要吗?”
崔庆才是个非常擅长学习的人,他玩什么都能玩到精通。他有一个很好的习惯,就是边学边写,他早期学习爬虫技术的时候,就开了博客,边学边分享他学到并实际操作过的经验,圈粉无数。我很受启发,这样的学习模式很高效,要教给别人之前自己必须弄得特别清楚。另一方面,互联网上的互动也给了他继续学习和精益求精的动力。
除了网络,图书是最成体系的经验分享。本书记录了崔庆才先生对爬虫实战技术最精华的部分。我已经迫不及待地想买一本,也一定会把它推荐给更多的朋友。
—— 宋睿华,微软小冰首席科学家
——2017 年 10 月