Skip to content

Latest commit

 

History

History
25 lines (16 loc) · 1.07 KB

DevNote.md

File metadata and controls

25 lines (16 loc) · 1.07 KB

开发笔记

目的

主要是为了完成我的论文,需要一些数据

主要的问题,来自,github的 rate limit

  1. rate limit 在没有认证的时候,阈值非常低。

  2. rate limit,改为了core和search等几个不同的rate,其中search的rate 认证用户也只有30.因此设定好查询的步长,很重要!

  3. 我是部署在阿里云上的,不知道为什么经常会被系统kill掉。按说1天就能爬完的,但是发现半夜3-4点就停了可能是oom,但是目前还没有发现准确的证据

  4. 版本问题,我使用的pygithub,由于开发周期比较长,pygithub已经更新了好几版了。github的api v3 做了一些增强,而我因为没更新,所以总发现有些文档对不上。

思路

  1. 先把数据抓下来吧。
  2. 考虑过用GHTorrent 但是库太大了。我也不需要那么多的数据。

词频分析

  1. 将所有人的日报抓取下来
  2. 通过词频统计 wordanalize.py 对词频进行统计,输出[分词,频率,词性]
  3. 对输出的结果进行map reduce,去掉不相关的词