You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
제 생각에는 crawling과 parsing을 조금 reliable하게 refactoring 해보면 어떨까요?
지금 crawling과 parsing이 나누어져 있는데 법안 하나를 crawl하고 이를 parsing하면 어떨까요? 그러면 서버에 hit 하는 시간을 줄여주어 서버 부하를 적게할것 같습니다.
get_html 에 try/catch를 걸어 500서버에러나 connection 에러나, 본문중 SQL Exception이 있으면 1초 쉬었다가 3번 정도 retry 해본다음 die.
위 2번에서 받아온 html을 parsing해보고 문제가 있으면 2번을 다시 수행하고 파싱. 이 과정도 3번정도 해보고 안되면 die 하면 어떨까요?
2 나 3에서 die가 되면 전체 업데이트가 안되겠지만, 전체 업데이트가 안되는 것이 일부 법안이 누락된 정보를 보여주는 것보다 좋지 않을까 생각됩니다. 2, 3번 에러가 지속된다면 뭔가 대책이 필요하겠죠? ^^
그냥 생각나서 적어 보았습니다. 감사합니다.
---
Want to back this issue? **[Post a bounty on it!](https://www.bountysource.com/issues/28770142-safe-crawling?utm_campaign=plugin&utm_content=tracker%2F248104&utm_medium=issues&utm_source=github)** We accept bounties via [Bountysource](https://www.bountysource.com/?utm_campaign=plugin&utm_content=tracker%2F248104&utm_medium=issues&utm_source=github).
The text was updated successfully, but these errors were encountered:
제 생각에는 crawling과 parsing을 조금 reliable하게 refactoring 해보면 어떨까요?
2 나 3에서 die가 되면 전체 업데이트가 안되겠지만, 전체 업데이트가 안되는 것이 일부 법안이 누락된 정보를 보여주는 것보다 좋지 않을까 생각됩니다. 2, 3번 에러가 지속된다면 뭔가 대책이 필요하겠죠? ^^
그냥 생각나서 적어 보았습니다. 감사합니다.
--- Want to back this issue? **[Post a bounty on it!](https://www.bountysource.com/issues/28770142-safe-crawling?utm_campaign=plugin&utm_content=tracker%2F248104&utm_medium=issues&utm_source=github)** We accept bounties via [Bountysource](https://www.bountysource.com/?utm_campaign=plugin&utm_content=tracker%2F248104&utm_medium=issues&utm_source=github).The text was updated successfully, but these errors were encountered: