主要是为了完成我的论文,需要一些数据
主要的问题,来自,github的 rate limit
-
rate limit 在没有认证的时候,阈值非常低。
-
rate limit,改为了core和search等几个不同的rate,其中search的rate 认证用户也只有30.因此设定好查询的步长,很重要!
-
我是部署在阿里云上的,不知道为什么经常会被系统kill掉。按说1天就能爬完的,但是发现半夜3-4点就停了可能是oom,但是目前还没有发现准确的证据
-
版本问题,我使用的pygithub,由于开发周期比较长,pygithub已经更新了好几版了。github的api v3 做了一些增强,而我因为没更新,所以总发现有些文档对不上。
- 先把数据抓下来吧。
- 考虑过用GHTorrent 但是库太大了。我也不需要那么多的数据。
- 将所有人的日报抓取下来
- 通过词频统计 wordanalize.py 对词频进行统计,输出[分词,频率,词性]
- 对输出的结果进行map reduce,去掉不相关的词