show	version	enable_checker
step	1.0	true

从零开始

回忆

上次爬了 baidu.com
找到了三组链接
然后分别遍历
百度这种搜索引擎是怎么形成的呢？🤔

缘起

从开始有网页以来
人们使用计算机中的浏览器来访问网页

网页太多太乱
能否有个索引呢？

雅虎

手工收录站点

站长主动提交网址要求雅虎收录

但是既然人需要通过计算机访问网页
能否用计算机程序批量爬取网页呢？

爬虫诞生

google使用爬虫程序
- 爬取网页
- 存入数据库

有人来搜索的时候
- 再到数据库里面进行查询
- 返回结果
逐渐google 代替 yahoo
- 成为了互联网的入口
各个网站非常需要被收录
- 主动提供
  - sitemap.html

sitemap.xml

https://www.58.com/sitemap.xml
- 可以暴露自身的url的接口
- http://rkz.58.com/

跟下除了sitemap还有
- robots.txt

定义robots.txt

后来
- 有些网站希望成为垂类的入口
- 要养成用户在本网站或者app搜索的习惯
- 拒绝google收录
- 也写在robots.txt中

甚至还可以拒绝指定的搜索引擎

https://developers.google.cn/search/docs/crawling-indexing/robots/create-robots-txt

规则

ietf制定相应的规则

robots.txt 也开始有了自己的规范

总结

robots.txt是一个爬虫公约
- 可以对于某些引擎、某些目录
  - 拒绝爬取
  - 或者允许爬取

爬取之前需要先观察一下robots.txt
可以手动爬取百度指数吗？🤔
下次再说👋

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

570-793090-爬虫的概念_robots_txt_历史.sy.md

570-793090-爬虫的概念_robots_txt_历史.sy.md

从零开始

回忆

缘起

雅虎

爬虫诞生

sitemap.xml

定义robots.txt

规则

总结

Files

570-793090-爬虫的概念_robots_txt_历史.sy.md

Latest commit

History

570-793090-爬虫的概念_robots_txt_历史.sy.md

File metadata and controls

从零开始

回忆

缘起

雅虎

爬虫诞生

sitemap.xml

定义robots.txt

规则

总结