-
Notifications
You must be signed in to change notification settings - Fork 39
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Failed to get ... ConnectionError object #33
Comments
안녕하세요. 그런데 저도 방금 코드를 돌려서 확인해보니 요청하는 url (ex: |
그렇군요. Fail이 나면 3번 정도 retry 하고 안되면 바로 stop 하는것이 일부 데이타를 받아 오는것 보다 나은것이 아닐까 아니면 지금 국회의원 자료 넣어 주신것 처럼 하루에 한번 정도 업하신 다음 전체 bill json 파일을 github에 자동으로 diff가 잘 보이니 update된 파일들을 찾기도 매우 쉬울것 같아요. 감사합니다. 2015-11-30 14:45 GMT+08:00 Lucy Park [email protected]:
|
오 bill 목록을 https://github.com/teampopong/data-assembly 에 업데이트하는 것 정말 좋은 아이디어인듯합니다. 오늘 밤부터 적용될 수 있도록 해보겠습니다. |
오오~ 그렇게 된다면 (일단 19대부터) 정말 좋겠습니다. 제가 모오놓은 19대 Json 파일을 보니 204M 밖에 안되는 군요. 내일 아침이 기다려 집니다. 정말 감사합니다. 2015-11-30 15:04 GMT+08:00 Lucy Park [email protected]:
|
목록을 올려주셔서 감사합니다. https://github.com/teampopong/data-assembly/blob/master/bills.csv 혹시 process된 각 bill별 json 파일들도 가능할까요? 그럼, Bill정보가 필요한 다른 분들은 crawler 를 전혀 돌릴 제가 너무 많은 것을 부탁드리는것 같습니다. 2015-11-30 16:04 GMT+09:00 Lucy Park [email protected]:
|
올려주신 리스트를 이용해서 제가 main.py를 돌려보았더니 제 서버에서는 시간이 꽤 많이 걸리네요. (기록을 위해 올려둡니다.) $ ls -1tl | (head -n2 && tail -n1) 9시간 30분이 걸리고 $ ls -1tl | (head -n2 && tail -n1) Json process까지는 10시간이 걸리네요. 참고로 AWS t2.micro 일본 서버에서 돌립니다. |
thread 로 너무 빨리 받아와서 그런 것 같습니다. 같은 에러로 못가져오더니, thread끄고 하나씩 가져와보면 잘 가져오는군요. redirect의 경우, referer를 설정하면 redirect안되고 referer 없으면 root로 redirect되는 것 같습니다. 제 pc에서도 crawl됩니다. |
Crawler 돌리다가 이런 에러가 많이 보이는데 일단 Total 18119 bills, 363 pages to ./sources/list/19 정보는 받아 오는 것으로 봐서 제 서버를 막은 것은 아닌것 같은데 왜 그런 것일까요?
그리고 이렇게 fail 할경우 retry해서 해당 파일을 받아 오나요? 아님 그 리스트에 있는 bill들은 무시 되나요?
The text was updated successfully, but these errors were encountered: