Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Adiciona 6 raspadores de #1090 #1288

Open
wants to merge 6 commits into
base: main
Choose a base branch
from

Conversation

jreagle
Copy link

@jreagle jreagle commented Sep 27, 2024

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

  • O layout não se parece com nenhum caso da lista de layouts padrão
  • É um layout padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão.
  • É um layout padrão e todos os municípios adicionados usam a classe de spider base adequada para o padrão.

Código da(s) spider(s)

  • O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
  • O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
  • O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
  • Explicitar o atributo de classe end_date não se fez necessário. (Obs.: Apenas to_itapiratins.py fugiu a esse padrão)
  • Não utilizo custom_settings em meu raspador.

Testes

  • Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
  • Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
  • Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.

Verificações

  • Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Descrição

Adiciona 6 raspadores de municípios replicados a partir do padrão BaseDOBR mencionado na #1090 (comment):

Code City
1703909 Caseara - TO
1710904 Itapiratins - TO
1713205 Miracema - TO
1713957 Muricilândia - TO
1718865 Santa Fé do Araguaia - TO
1720978 Talismã - TO

@jreagle
Copy link
Author

jreagle commented Sep 27, 2024

Resultado dos Testes

1703909 | Caseara - TO

between_collecttest_to_caseara_20240101_20240131.csv
between_collecttest_to_caseara_20240101_20240131.log
full_collecttest_to_caseara_20240927.csv
full_collecttest_to_caseara_20240927.log
last_collecttest_to_caseara_20240926.csv
last_collecttest_to_caseara_20240926.log

1710904 | Itapiratins - TO (Última Edição: 10/01/2024 => "end_date")

between_collecttest_to_itapiratins_20230101_20230131.csv
between_collecttest_to_itapiratins_20230101_20230131.log
full_collecttest_to_itapiratins_20240927.csv
full_collecttest_to_itapiratins_20240927.log
last_collecttest_to_itapiratins_20240110.csv
last_collecttest_to_itapiratins_20240110.log

1713205 | Miracema - TO

between_collecttest_to_miracema_20240101_20240131.log
between_collecttest_to_muricilandia_20240101_20240131.csv
full_collecttest_to_miracema_20240927.csv
full_collecttest_to_miracema_20240927.log
last_collecttest_to_miracema_20240926.csv
last_collecttest_to_miracema_20240926.log

1713957 | Muricilândia - TO

between_collecttest_to_muricilandia_20240101_20240131.csv
between_collecttest_to_muricilandia_20240101_20240131.log
full_collecttest_to_muricilandia_20240927.csv
full_collecttest_to_muricilandia_20240927.log
last_collecttest_to_muricilandia_20240924.csv
last_collecttest_to_muricilandia_20240924.log

1718865 | Santa Fé do Araguaia - TO

between_collecttest_to_santa_fe_do_araguaia_20240101_20240131.csv
between_collecttest_to_santa_fe_do_araguaia_20240101_20240131.log
full_collecttest_to_santa_fe_do_araguaia_20240927.csv
full_collecttest_to_santa_fe_do_araguaia_20240927.log
last_collecttest_to_santa_fe_do_araguaia_20240924.csv
last_collecttest_to_santa_fe_do_araguaia_20240924.log

1720978 | Talismã - TO

between_collecttest_to_talisma_20240101_20240131.csv
between_collecttest_to_talisma_20240101_20240131.log
full_collecttest_to_talisma_20240927.csv
full_collecttest_to_talisma_20240927.log
last_collecttest_to_talisma_20240912.csv
last_collecttest_to_talisma_20240912.log

Visão Geral

  • Nenhum dos logs capturou erro apenas, "warnings" (ScrapyDeprecationWarning)
  • Os registros em CSV não apresentam discrepância e conferem com arquivos efetivamente salvos em /data
  • Amostra de PDFs abertos não apresentou problemas e nem corrupção de arquivos.

Esqueci de alguma coisa @trevineju ???

@ddevdan
Copy link
Contributor

ddevdan commented Oct 1, 2024

Vou revisar esse

@trevineju
Copy link
Member

trevineju commented Oct 2, 2024

show, @jreagle! Parabéns pela PR! 🎈

Tá com @ddevdan revisar, mas vou deixar só um item de atenção...

1710904 | Itapiratins - TO (Última Edição: 10/01/2024 => "end_date")

Isso aponta que o município parou de usar esse site. Coincidentemente, atualizei a docs oficial com orientações sobre isso ontem mesmo: diários oficiais em diferentes lugares

Basicamente, não poderemos colocar esse raspador em produção enquanto não tivermos o do site atual também. Mas não é um problema o código existir no repositório, só a coleta não vai ser agendada por enquanto.

Deixo a critério de vocês o que decidir, em particular de @ddevdan como revisor. Algumas possibilidades são:

  • Seguir com a PR incluindo o municipio, só atualizando pra indicar que é um raspador de site descontinuado. As modificações necessárias estão na docs.
  • Remover o raspador da PR e seguir em frente sem esse caso.
  • Tentar achar o site novo de Itapiratins - TO, analisar a situação dele e decidir o que fazer depois disso.
  • alguma outra ideia que vocês tenham, rs

@trevineju trevineju linked an issue Oct 2, 2024 that may be closed by this pull request
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Status: novo
Development

Successfully merging this pull request may close these issues.

[Mapeamento] Lista de municípios que usam DOBR
3 participants