-
-
Notifications
You must be signed in to change notification settings - Fork 410
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Fix - Spider de Caçapava-SP [Fixes #1131] #1274
base: main
Are you sure you want to change the base?
Conversation
@trevineju vou pegar esssa pra rever |
|
||
yield Gazette( | ||
date=gazette_date, | ||
edition_number=edition_number, | ||
is_extra_edition=False, | ||
power="executive_legislative", | ||
file_urls=[gazette_url], | ||
territory_id=self.TERRITORY_ID, | ||
file_urls=gazette_url, |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Nesse caso, o objeto já é uma lista. Fiz o evalutate com .extract()
.
Vi que a maioria dos spiders usa sempre .extract_first()
(esse só retorna um registro). Caso seja o padrão, ou o recomendável no projeto, posso alterar sem problemas.
|
||
yield Gazette( | ||
date=gazette_date, | ||
edition_number=edition_number, | ||
is_extra_edition=False, | ||
power="executive_legislative", | ||
file_urls=[gazette_url], | ||
territory_id=self.TERRITORY_ID, | ||
file_urls=gazette_url, |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Caso seja o padrão, ou o recomendável no projeto, posso alterar sem problemas.
Tem alguns raspadores bem antigos que ainda usam .extract_first()
mesmo, mas temos passado a usar .get()
e .getall()
apenas, pq o próprio Scrapy fez essa mudança. Poderia atualizar a PR, @jjpaulo2?
Seria até uma boa contribuição essa de padronizar a base de código. Vou deixar uma issue.
Fiz o ajuste @trevineju. Eu não havia testado o scrapping completo dessa cidade, mas parece que ele falha para algumas datas. Isso já é esperado? |
Show!
Olhei rapidamente o log e, na linha 3124, quando começa um monte de redirect seguidos, a URL que estava sendo tentada era:
está com dois campos de paginação |
Sigo sim @trevineju. Só dei essa olhadinha rápida. Vou tentar dar um retorno até quarta. |
@trevineju fiz um ajuste na paginação. Agora está funcionando 100%! 😄 |
@trevineju fiz os ajustes mas esqueci de pedir o novo review. |
Este log aqui aparentemente é para o raspador completo sem filtro de datas certo? |
Testes
.log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Anexos
Descrição
Faltava apenas chamar o
.extract()
para fazer o evaluate dos hrefs.