Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

一些小小的建议 #5

Open
appmlk opened this issue Nov 7, 2024 · 5 comments
Open

一些小小的建议 #5

appmlk opened this issue Nov 7, 2024 · 5 comments

Comments

@appmlk
Copy link

appmlk commented Nov 7, 2024

尝试在本机运行了,好棒的工作,一些改进的建议:

1、增加一些爬虫,分析论文的分区或者影响因子,优先选择高水平论文来分析;

2、增加新论文的循环次数,例如当最新年份(如2024年)的论文累积到一定数量时才停止循环;

3、is_azure : False 似乎不起作用,可能改成数字的判断会更好?

4、pdf下载容易报错(特别是IEEE),但是实际上浏览器能够打开,或许考虑在这部分加入代理,或者使用selenium来下载?

@appmlk
Copy link
Author

appmlk commented Nov 7, 2024

还有一个,SEMENTIC_SEARCH_API_KEY还蛮难弄的,可以考虑在SEMENTIC_SEARCH_API_KEY为空时,请求SEMENTIC加一个小sleep,防止429 Too Many Requests

@appmlk
Copy link
Author

appmlk commented Nov 7, 2024

还有一个,SEMENTIC_SEARCH_API_KEY还蛮难弄的,可以考虑在SEMENTIC_SEARCH_API_KEY为空时,请求SEMENTIC加一个小sleep,防止429 Too Many Requests

仔细看了看,原来有这样的代码,疏忽了

@appmlk
Copy link
Author

appmlk commented Nov 7, 2024

代码中包含两个注释# search before和# search after,感觉和直觉不符,因为# search before是在搜索未来的论文,但是before似乎是在描述过去。建议的修改:
将 # search before 修改为 # Forward search: search future papers (citations)
将 # search after 修改为 # Backward search: search past papers (references)

@LidongBing
Copy link
Contributor

尝试在本机运行了,好棒的工作,一些改进的建议:

1、增加一些爬虫,分析论文的分区或者影响因子,优先选择高水平论文来分析;

2、增加新论文的循环次数,例如当最新年份(如2024年)的论文累积到一定数量时才停止循环;

3、is_azure : False 似乎不起作用,可能改成数字的判断会更好?

4、pdf下载容易报错(特别是IEEE),但是实际上浏览器能够打开,或许考虑在这部分加入代理,或者使用selenium来下载?

谢谢建议,欢迎加入进来一起开发

@jianghuyihei
Copy link
Collaborator

尝试在本机运行了,好棒的工作,一些改进的建议:

1、增加一些爬虫,分析论文的分区或者影响因子,优先选择高水平论文来分析;

2、增加新论文的循环次数,例如当最新年份(如2024年)的论文累积到一定数量时才停止循环;

3、is_azure : False 似乎不起作用,可能改成数字的判断会更好?

4、pdf下载容易报错(特别是IEEE),但是实际上浏览器能够打开,或许考虑在这部分加入代理,或者使用selenium来下载?

很好的建议:
1.我后续有时间会进行改进,这也是我们之后想要继续深入的方向。
2.这个因为我们是采用引用关系,到最新的论文可能就没有被引了。
3.这个我后面会进行错误排查
4.这个我现在添加了一些简单的代理,谢谢你的建议

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants