Skip to content

OliverFoh/zhaobiao_spider

Repository files navigation

招投标信息采集

项目任务

​ 本项目的主要任务是对中国政府采购网上的招投标信息进行采集,然后在后期进行数据的清洗与融合

项目技术

​ 本次项目中主要用到了多线程爬虫的知识,通过多个线程分别请求获取页面源码,然后使用解析器进行解析,对于一些比较特殊的地方则使用正则表达式进行解析处理,然后将结果信息加入queue队列,写入文件;同时,在存入文件时,另外建立了写文件线程,缩短了文件的写入时间,避免了线程不安全。

​ 另外,数据库使用到了mysql,由于信息原本的不完整性,因此没有将数据存入数据库,而是暂存为csv格式文件中,后期进行好数据的清洗后会存储在数据库中。

项目文件结构

  • spider.py

    项目启动模块,包含MainCrawler类与SaveInfoToCsv类,负责请求页面,解析数据,创建多线程,将数据写入文件等功能

  • mysql.py

    数据库类,负责初始化数据库连接,执行数据插入操作

  • zhaobiao.sql

    mysql脚本文件,负责初始化数据库,建立表结构字段

  • data.csv

    存储最终的结果输出

字段说明

招投标.png

数据格式

csv文件格式