[Manutenção] Novo raspador para Duque Bacelar-MA #1291

ivanzigoni · 2024-09-29T19:37:35Z

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

O layout não se parece com nenhum caso da lista de layouts padrão
É um layout padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão.
É um layout padrão e todos os municípios adicionados usam a classe de spider base adequada para o padrão.

Código da(s) spider(s)

O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
Explicitar o atributo de classe end_date não se fez necessário.
Não utilizo custom_settings em meu raspador.

Testes

Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.

Verificações

Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Descrição

Resolve #1173.

ma_duque_bacelar_coleta-teste_completa.csv
ma_duque_bacelar_coleta-teste_completa.log

ma_duque_bacelar_coleta-teste_intervalo.csv
ma_duque_bacelar_coleta-teste_intervalo.log

ma_duque_bacelar_coleta-teste_ultima.log

trevineju · 2024-10-02T19:01:06Z

parabéns pela PR, @ivanzigoni! Coloquei ela na fila de revisão. Ficou faltando só ter deixado um comentário na issue indicando que ia fazer ela, pra eu poder atualizar o campo de "Assignees" com o seu perfil.

trevineju · 2024-10-02T19:17:33Z

data_collection/gazette/spiders/ma/ma_duque_bacelar.py

+ return sorted(output, key=lambda entry: entry.get("date"))
+
+ def parse(self, response: scrapy.http.Response):
+ _, *gazette_element_list, __ = response.css("tr")


Provavelmente usando melhor os recursos de Seletores tem uma solução pra isso, mas se não tiver, outro jeito é selecionando a sublista

Suggested change

_, *gazette_element_list, __ = response.css("tr")

gazette_element_list = response.css("tr")[1:-2]

trevineju · 2024-10-02T19:26:54Z

data_collection/gazette/spiders/ma/ma_duque_bacelar.py

+ def _extract_url(self, url_element: scrapy.Selector):
+ (raw_path,) = url_element.css("a")
+


Se precisa só da primeira ocorrência, .get() é o suficiente

Suggested change

def _extract_url(self, url_element: scrapy.Selector):

(raw_path,) = url_element.css("a")

def _extract_url(self, url_element):

raw_path = url_element.css("a").get()

ivanzigoni force-pushed the refactor/ma_duque_bacelar branch 2 times, most recently from b9d4f3e to d0917f2 Compare September 29, 2024 19:56

feat: implementa novo raspador para ma_duque_bacelar

5ec86ee

ivanzigoni force-pushed the refactor/ma_duque_bacelar branch from f371afa to 5ec86ee Compare October 1, 2024 18:15

Merge branch 'main' into refactor/ma_duque_bacelar

b6cc2de

ivanzigoni marked this pull request as ready for review October 1, 2024 18:16

ivanzigoni changed the title ~~Draft: [Manutenção] Novo raspador para Duque Bacelar-MA~~ [Manutenção] Novo raspador para Duque Bacelar-MA Oct 1, 2024

trevineju reviewed Oct 2, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Manutenção] Novo raspador para Duque Bacelar-MA #1291

[Manutenção] Novo raspador para Duque Bacelar-MA #1291

ivanzigoni commented Sep 29, 2024 •

edited

Loading

trevineju commented Oct 2, 2024

trevineju Oct 2, 2024

trevineju Oct 2, 2024

	_, *gazette_element_list, __ = response.css("tr")
	gazette_element_list = response.css("tr")[1:-2]

		def _extract_url(self, url_element: scrapy.Selector):
		(raw_path,) = url_element.css("a")

[Manutenção] Novo raspador para Duque Bacelar-MA #1291

Are you sure you want to change the base?

[Manutenção] Novo raspador para Duque Bacelar-MA #1291

Conversation

ivanzigoni commented Sep 29, 2024 • edited Loading

Layout do site publicador de diários oficiais

Código da(s) spider(s)

Testes

Verificações

Descrição

trevineju commented Oct 2, 2024

trevineju Oct 2, 2024

Choose a reason for hiding this comment

trevineju Oct 2, 2024

Choose a reason for hiding this comment

ivanzigoni commented Sep 29, 2024 •

edited

Loading