tmall_spider

使用提示

    读取csv内的产品号一次不适宜过多，建议尝试10个为单位叠加。

2018.04.03

    1.添加爬取买家秀url且入库功能；
    2.新增配置文件配置日志文件路径；
    3.配置同时爬取的goodsn进程数以及每个SN下打开页面的线程数；
    4.新增操作无响应，30秒后刷新该页面功能；
    5.修复多线程运行时，验证登录弹出无法跳转状态bug

2018.03.30

提交tmall爬虫第一版程序

安装说明

    解压geckodriver-v0.20.0-xxx.zip 到python安装目录，设置path到python的安装目录下
    geckodriver-v0.20.0 - 火狐浏览器驱动 (支持Firefox 55.0以上，selenium 3.5以上)
    双击安装python2.7以后，直接双击setup.bat直接安装爬虫所需依赖
    在tmall.cfg文件内设置基本设定，运行前 请配置好日志文件路径 以及父进程数和子进程数
    父进程为同时爬取的goodsn个数，例如：设置为3，则同时最多爬取3个goodsn下对应页面
    父进程 = 基本数据入库子线程 + 评论数据入库子线程 + 配置的子线程数（子线程由一个goodsn下对应的IID所决定，
    例如一个goodsn下，在淘宝天猫上有10个IID，配置的子线程为5，则对应这个goodsn的线程恒为7个。）

注意

    由于python有GIL的存在，线程受GIL所限，设置过多线程，会导致CPU无法处理，从而出现卡死现象

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
spider		spider
test		test
util		util
.gitattributes		.gitattributes
README.md		README.md
__init__.py		__init__.py
__init__.pyc		__init__.pyc
geckodriver-v0.20.0-win32.zip		geckodriver-v0.20.0-win32.zip
geckodriver-v0.20.0-win64.zip		geckodriver-v0.20.0-win64.zip
geckodriver.log		geckodriver.log
processing_run.py		processing_run.py
processing_run.pyc		processing_run.pyc
python-2.7.14.amd64.msi		python-2.7.14.amd64.msi
python-2.7.14.msi		python-2.7.14.msi
requirement.txt		requirement.txt
run.bat		run.bat
setup.bat		setup.bat
table_frame.json		table_frame.json
test.xlsx		test.xlsx

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

tmall_spider

使用提示

2018.04.03

2018.03.30

安装说明

注意

About

Releases

Packages

Contributors 2

Languages

kingsley-gl/spider_t

Folders and files

Latest commit

History

Repository files navigation

tmall_spider

使用提示

2018.04.03

2018.03.30

安装说明

注意

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages