-
-
Notifications
You must be signed in to change notification settings - Fork 410
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Adiciona novos 7 raspadores #1280
base: main
Are you sure you want to change the base?
Changes from all commits
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,11 @@ | ||
from datetime import date | ||
|
||
from gazette.spiders.base.municipioonline import BaseMunicipioOnlineSpider | ||
|
||
|
||
class AlSaoLuisDoQuitundeSpider(BaseMunicipioOnlineSpider): | ||
TERRITORY_ID = "2708501" | ||
name = "al_sao_luis_do_quitunde" | ||
url_uf = "al" | ||
url_city = "saoluisdoquitunde" | ||
start_date = date(2020, 7, 29) |
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Layout do site publicador de diários oficiaisMarque apenas um dos itens a seguir:
Código da(s) spider(s)
Testes
Verificações
DescriçãoAdiciona raspador de município replicado Achados de RevisãoNENHUM! Os LOGs de execução do SPIDER_BASE não apresentaram ERROS de coleta e a checagem dos arquivos coletados não mostrou falta de edições. Log Files (Tests)ba_itanhem_last_2024-11-14__.csv Log Summary (Tests)
|
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,11 @@ | ||
from datetime import date | ||
|
||
from gazette.spiders.base.municipioonline import BaseMunicipioOnlineSpider | ||
|
||
|
||
class BaItanhemSpider(BaseMunicipioOnlineSpider): | ||
TERRITORY_ID = "2916005" | ||
name = "ba_itanhem" | ||
url_uf = "ba" | ||
url_city = "itanhem" | ||
start_date = date(2021, 1, 5) |
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Layout do site publicador de diários oficiaisMarque apenas um dos itens a seguir:
Código da(s) spider(s)
Testes
Verificações
DescriçãoAdiciona raspador de município replicado Achados de RevisãoPor algum motivo que não consegui descobrir o SPIDER_BASE não conseguiu coletar 138x edições, apesar delas estarem disponíveis no site normalmente. Os LOGs de execução do SPIDER_BASE apresentaram apenas 2x ERROS na execução do teste "FULL', na verdade apenas 1x HTTP 500 e o desdobramento no SPIDERMOON. Mas não considerei relevante considerando a quantidade de requisições e o fato de que não ajuda esclarecer a falta das edições na coleta. Além disso, a Portanto, cheguei a conclusão isso é um problema fora do escopo desse SPIDER_REPLICADO já que os LOGs não apresentaram falhas específicas de download que possam ser relacionadas as essas edições. Naquilo que ele conseguiu coletar, o comportamento da execução me pareceu adequado. Log Files (Tests)se_macambira_last_2024-11-08.log Log Summary (Tests)
|
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,11 @@ | ||
from datetime import date | ||
|
||
from gazette.spiders.base.municipioonline import BaseMunicipioOnlineSpider | ||
|
||
|
||
class SeMacambiraSpider(BaseMunicipioOnlineSpider): | ||
TERRITORY_ID = "2803708" | ||
name = "se_macambira" | ||
url_uf = "se" | ||
url_city = "macambira" | ||
start_date = date(2019, 1, 22) |
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Layout do site publicador de diários oficiaisMarque apenas um dos itens a seguir:
Código da(s) spider(s)
Testes
Verificações
DescriçãoAdiciona raspador de município replicado Achados de Revisão/TestesO Resolvi fazer um novo teste "FULL" setando o Agora porque o servidor das publicações OMITIU as edições de 1/2022 a 205/2023 nas requisições do SPIDER_BASE, eu não consegui descobrir! No primeiro test "FULL" os LOGs de execução do SPIDER_BASE não apresentaram ERROS, já no RE-TEST apareceram 2x ERROS na execução do teste "FULL', na verdade apenas 1x HTTP 500 e o desdobramento no SPIDERMON. Mas não considerei relevante considerando a quantidade de requisições e o fato de que não ajuda esclarecer a falta das edições na coleta. Além disso, a DocString do SPIDER_BASE apresenta um alerta sobre um comportamento similar (HTTP 500) do servidor para requisições de grandes períodos. Portanto, fora a questão do Naquilo que ele conseguiu coletar, o comportamento da execução do SPIDER_REPLICADO me pareceu adequado. Log Files (Tests)se_maruim_full_2024-11-12.csv se_maruim_full_2024-11-14_2022-03-04_.log Log Summary (Tests)
|
Original file line number | Diff line number | Diff line change | ||||
---|---|---|---|---|---|---|
@@ -0,0 +1,11 @@ | ||||||
from datetime import date | ||||||
|
||||||
from gazette.spiders.base.municipioonline import BaseMunicipioOnlineSpider | ||||||
|
||||||
|
||||||
class SeMaruimSpider(BaseMunicipioOnlineSpider): | ||||||
TERRITORY_ID = "2804003" | ||||||
name = "se_maruim" | ||||||
url_uf = "se" | ||||||
url_city = "maruim" | ||||||
start_date = date(2023, 1, 2) | ||||||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more.
Suggested change
|
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Layout do site publicador de diários oficiaisMarque apenas um dos itens a seguir:
Código da(s) spider(s)
Testes
Verificações
DescriçãoAdiciona raspador de município replicado Achados de RevisãoPor algum motivo que não consegui descobrir o SPIDER_BASE não conseguiu coletar 448x edições, apesar delas estarem disponíveis no site normalmente. Os LOGs de execução do SPIDER_BASE apresentaram apenas 3x ERROS na execução do teste "FULL', na verdade apenas 2x HTTP 500 e o desdobramento no SPIDERMOON. Mas não considerei relevante considerando a quantidade de requisições e o fato de que não ajuda esclarecer a falta das edições na coleta. Além disso, a Portanto, cheguei a conclusão isso é um problema fora do escopo desse SPIDER_REPLICADO já que os LOGs não apresentaram falhas específicas de download que possam ser relacionadas as essas edições. Naquilo que ele conseguiu coletar, o comportamento da execução do SPIDER_REPLICADO me pareceu adequado. Log Files (Tests)se_pedrinhas_full_2024-11-12.csv Log Summary (Tests)
|
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,11 @@ | ||
from datetime import date | ||
|
||
from gazette.spiders.base.municipioonline import BaseMunicipioOnlineSpider | ||
|
||
|
||
class SePedrinhasSpider(BaseMunicipioOnlineSpider): | ||
TERRITORY_ID = "2805109" | ||
name = "se_pedrinhas" | ||
url_uf = "se" | ||
url_city = "pedrinhas" | ||
start_date = date(2018, 2, 7) |
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Layout do site publicador de diários oficiaisMarque apenas um dos itens a seguir:
Código da(s) spider(s)
Testes
Verificações
DescriçãoAdiciona raspador de município replicado ###Achados de Revisão Por algum motivo que não consegui descobrir o SPIDER_BASE não conseguiu coletar 163x edições, apesar delas estarem disponíveis no site normalmente. Os LOGs de execução do SPIDER_BASE apresentaram apenas 2x ERROS na execução do teste "FULL', na verdade apenas 1x HTTP 500 e o desdobramento no SPIDERMOON. Mas não considerei relevante considerando a quantidade de requisições e o fato de que não ajuda esclarecer a falta das edições na coleta. Portanto, cheguei a conclusão isso é um problema fora do escopo desse SPIDER_REPLICADO já que os LOGs não apresentaram falhas específicas de download que possam ser relacionadas as essas edições. Naquilo que ele conseguiu coletar, o comportamento da execução me pareceu adequado. Log Files (Tests)se_propria_full_2024-11-12.log Log Summary (Tests)
|
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,11 @@ | ||
from datetime import date | ||
|
||
from gazette.spiders.base.municipioonline import BaseMunicipioOnlineSpider | ||
|
||
|
||
class SePropriaSpider(BaseMunicipioOnlineSpider): | ||
TERRITORY_ID = "2805703" | ||
name = "se_propria" | ||
url_uf = "se" | ||
url_city = "propria" | ||
start_date = date(2021, 2, 23) |
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Layout do site publicador de diários oficiaisMarque apenas um dos itens a seguir:
Código da(s) spider(s)
Testes
Verificações
DescriçãoAdiciona raspador de município replicado Achados de Revisão/TestesComportamento semelhante ao spider O Resolvi fazer um novo teste "FULL" setando o Agora porque o servidor das publicações OMITIU as edições de 1/2022 a 205/2023 nas requisições do SPIDER_BASE, eu não consegui descobrir! No primeiro test "FULL" os LOGs de execução do SPIDER_BASE não apresentaram ERROS, já no RE-TEST apareceram 3x ERROS na execução do teste "FULL', na verdade apenas 2x HTTP 500 e o desdobramento no SPIDERMON. Mas não considerei relevante considerando a quantidade de requisições e o fato de que não ajuda esclarecer a falta das edições na coleta. Além disso, a DocString do SPIDER_BASE apresenta um alerta sobre um comportamento similar (HTTP 500) do servidor para requisições de grandes períodos. Portanto, fora a questão do start_date acabei chegando a mesma conclusão dos spiders anteriores de que isso é um problema fora do escopo desse SPIDER_REPLICADO já que os LOGs não apresentaram falhas específicas de download que possam ser relacionadas as essas edições. Naquilo que ele conseguiu coletar, o comportamento da execução do SPIDER_REPLICADO me pareceu adequado. Log Files (Tests)se_salgado_between_2023-01-02_2023-02-01.csv se_salgado_full_2024-11-14_2022-01-11_.log Log Summary (Tests)
|
Original file line number | Diff line number | Diff line change | ||||
---|---|---|---|---|---|---|
@@ -0,0 +1,11 @@ | ||||||
from datetime import date | ||||||
|
||||||
from gazette.spiders.base.municipioonline import BaseMunicipioOnlineSpider | ||||||
|
||||||
|
||||||
class SeSalgadoSpider(BaseMunicipioOnlineSpider): | ||||||
TERRITORY_ID = "2806206" | ||||||
name = "se_salgado" | ||||||
url_uf = "se" | ||||||
url_city = "salgado" | ||||||
start_date = date(2023, 1, 2) | ||||||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more.
Suggested change
|
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
Adiciona raspador de município replicado
AL_SAO_LUIS_DO_QUITUNDE (2708501)
a partir do padrãoBaseMunicipioOnlineSpider
(#1095)Achados de Revisão
NENHUM! Os LOGs de execução do SPIDER_BASE não apresentaram ERROS de coleta. E, apesar da checagem das edições apontar para falta de várias "números", esse comportamento é compatível com as edições realmente disponiilizadas no site! Portanto, o problema estaria na fonte dos dados e não no raspador!
Log Files (Tests)
al_sao_luis_do_quitunde_full_2024-11-11.csv
al_sao_luis_do_quitunde_full_2024-11-11.log
al_sao_luis_do_quitunde_last_2024-11-04__.csv
al_sao_luis_do_quitunde_last_2024-11-04__.log
al_sao_luis_do_quitunde_between_2020-07-29_2020-08-28.csv
al_sao_luis_do_quitunde_between_2020-07-29_2020-08-28.log
Log Summary (Tests)