ECommerceCrawlers

多种电商商品数据🐍爬虫，整理收集爬虫练习。通过实战项目练习解决一般爬虫中遇到的问题。

通过每个项目的readme，了解爬取过程分析。

对于精通爬虫的pyer，这将是一个很好的例子减少重复收集轮子的过程。项目经常更新维护，确保即下即用，减少爬取的时间。

对于小白通过✍️实战项目，了解爬虫的从无到有。爬虫过程的分析可以移步项目wiki。爬虫可能是一件非常复杂、技术门槛很高的事情，但掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现，但建议从一开始就要有一个具体的目标。

在目标的驱动下，你的学习才会更加精准和高效。那些所有你认为必须的前置知识，都是可以在完成目标的过程中学到的😁😁😁。

欢迎大家对本项目的不足加以指正，⭕️Issues或者🔔Pr

在之前上传的大文件贯穿了3/4的commits，发现每次clone达到100M，这与我们最初的想法违背，我们不能很有效的删除每一个文件（太懒），将重新进行初始化仓库的commit。并在今后不上传爬虫数据，优化仓库结构。

CrawlerDemo

Contribution👏

wait for you

What You Learn ?

本项目使用了哪些有用的技术

数据分析
- chrome Devtools
- Fiddler
- Firefox
- appnium
- anyproxy
- mitmproxy
数据采集
- urllib
- requests
- scrapy
- selenium
- pypputeer
数据解析
- re
- beautifulsoup
- xpath
- pyquery
- css
数据保存
- txt文本
- csv
- excel
- mysql
- redis
- mongodb
反爬验证
- mitmproxy 绕过淘宝检测
- js数据解密
- js数据生成对应指纹库
- 文字混淆
- 穿插脏数据
效率爬虫
- 单线程
- 多线程
- 多进程
- 异步协成
- 生产者消费者多线程
- 分布式爬虫系统

链接标识官方文档或推荐例子

What`s Spider 🕷？

🙋0x01 爬虫简介

爬虫

爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

爬虫作用

市场分析：电商分析、商圈分析、一二级市场分析等
市场监控：电商、新闻、房源监控等
商机发现：招投标情报发现、客户资料发掘、企业客户发现等

网页介绍

url
html
css
js

Roobots协议

无规矩不成方圆，Robots协议就是爬虫中的规矩，它告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。通常是一个叫作robots.txt的文本文件，放在网站的根目录下。

🙋0x02爬取过程

获取数据

模拟获取数据

🙋0x03解析数据

re

beautifulsoup

xpath

yquery

css

🙋0x04 存储数据

小规模数据存储（文本）

txt文本
csv
excel

大规模数据存储（数据库）

mysql
redis
mongodb

🙋0x05 反爬措施

反爬

反反爬

🙋0x06 效率爬虫

多线程

多进程

异步协程

scrapy框架

Padding

…………

Name		Name	Last commit message	Last commit date
Latest commit History 49 Commits
DianpingCrawler		DianpingCrawler
OthertCrawler		OthertCrawler
SohuNewCrawler		SohuNewCrawler
TaobaoCrawler		TaobaoCrawler
WechatCrawler		WechatCrawler
XianyuCrawler		XianyuCrawler
ZhaopinCrawler		ZhaopinCrawler
cnblog		cnblog
.gitignore		.gitignore
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ECommerceCrawlers

CrawlerDemo

Contribution👏

What You Learn ?

What`s Spider 🕷？

🙋0x01 爬虫简介

🙋0x02爬取过程

🙋0x03解析数据

🙋0x04 存储数据

🙋0x05 反爬措施

🙋0x06 效率爬虫

Padding

Awesome-Example😍:

About

Releases

Packages

Languages

License

xiaxichen/ECommerceCrawlers

Folders and files

Latest commit

History

Repository files navigation

ECommerceCrawlers

CrawlerDemo

Contribution👏

What You Learn ?

What`s Spider 🕷？

🙋0x01 爬虫简介

🙋0x02爬取过程

🙋0x03解析数据

🙋0x04 存储数据

🙋0x05 反爬措施

🙋0x06 效率爬虫

Padding

Awesome-Example😍:

About

Resources

License

Code of conduct

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages