Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

小分享 & gen_submission_by_rule.py中line 22-25 怀疑冗余 #1

Open
Riverwave opened this issue Apr 14, 2015 · 2 comments
Open

Comments

@Riverwave
Copy link

非常感谢wepe的分享,开始以为是naive bayes. 不过仔细看了看,真的很适合我这样naive的新手,感觉作者真的太牛了,这么复杂的问题如此简单化,效果还这么好。
有几个小小的想法分享交流一下,

  1. 对文件夹的循环操作是不是会占用很多时间,估计是出于工作目录的整洁和代码简洁考虑。
  2. 不太明白gen_submission_by_rule.py中line 22-25 的目的,前面的判断不是已经完成了吗,是双重判断保险一点吗。。还是说作者本来另有深意的。
  3. 这个简单的规则没有考虑到当天买了后,又加入购物车的情况。不过也就只有8个。也有可能是之前加入购物车了,后来通过搜索就付款了,没有清空购物车。
  4. "model 训练机器学习模型(暂时不分享)”作者的这段话的意思基本不明白,机器学习模型怎么才能和这个算法结合起来呢。。

PS:同样期望可以和作者在kaggle: diabetic retinopathy 问题上交流交流。

再次感谢wepe的分享,祝paper早日写成并顺利通过review。

@wepe
Copy link
Owner

wepe commented Apr 14, 2015

感谢你的留言!

1、有些地方对文件夹循环操作,频繁的打开和关闭,确实很耗时间。
2、gen_submission_by_rule.py中line 22-25 的确是多余的,早上我本来想删掉的.....不得不佩服你代码阅读的能力(你竟然能读懂这么乱的代码Orz)。。。后半句你又猜对了,确实是另有意义,是另外一些规则的代码,我删了一部分,忘了删掉这几句。
3、“当天买了后,又加入购物车的情况”,这个我没有统计,可能你说的是对的。
4、/model/文件夹下本来是放一些机器学习模型的代码的,不过目前效果不是很好,比赛也还在进行,就先不放上来了。训练模型还需要提取特征,需要另外的一些data preprocess的代码。
5、Kaggle糖尿病视网膜病变那个比赛,我打算暑假有空再搞了,有小伙伴在研究用CNN去做。

PS:我已经一个多星期没有碰阿里这个比赛了,只是昨天整理了一下代码,代码确实写得不好,望轻拍。

PSS:有朋友说代码跑了很久没出结果,我的PC是i7处理器,8核,跑的时候的确非常快。其他机子跑的时间可能就因性能而异了。

@Riverwave
Copy link
Author

嗯嗯,谢谢!回复一下3

3.“当天买了后,又加入购物车的情况”,考虑后木有一点点增益。。

PS:代码段的主要目的有注释,感觉还比较好读啦。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants