- 抓取博主信息及对应的所有文章信息
- 存入数据库,分析
- 简单修改代码可以做到更深层抓取...可自行修改哈,此项例子只做参考
- 以首页为入口,抓取4000条初始文章url,匹配数据库剔除重复
- 解析文章页url,获取用户主页url
- 解析用户主页,判断是否存在多个页面,获取当前用户所有文章url,匹配数据库剔除重复
- 抓取文章,调用数据库更新用户数据及博客数据
第一步:安装依赖 ————npm install
第二步:运行mongodb ————mongod --dbpath c:\mongo
第三步:运行爬虫 ————node app.js
欢迎一同学习交流,且学且努力