Skip to content

chipmunktail/cnblogs_spider

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

cnblogs_spider

博客园爬虫_基于Nodejs+mongodb

个人练习(欢迎交流),代码内有详细备注

功能

  • 抓取博主信息及对应的所有文章信息
  • 存入数据库,分析
  • 简单修改代码可以做到更深层抓取...可自行修改哈,此项例子只做参考

逻辑

  1. 以首页为入口,抓取4000条初始文章url,匹配数据库剔除重复
  2. 解析文章页url,获取用户主页url
  3. 解析用户主页,判断是否存在多个页面,获取当前用户所有文章url,匹配数据库剔除重复
  4. 抓取文章,调用数据库更新用户数据及博客数据

使用说明及启动

第一步:安装依赖 ————npm install 
第二步:运行mongodb ————mongod --dbpath c:\mongo 
第三步:运行爬虫 ————node app.js

欢迎一同学习交流,且学且努力

蒋启钲 [email protected]

About

博客园爬虫_Node

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • JavaScript 100.0%