-
-
Notifications
You must be signed in to change notification settings - Fork 410
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Adiciona novos 10 raspadores do Paraná #1167
Conversation
Olá, peguei esse pull request para testar antes da integração com o site do Querido Diário mas não conseguia rodar o raspador. Para todas as cidades, aparecia o erro: ModuleNotFoundError: No module named 'gazette.spiders.base.atende_v2' Fui investigar e não há nenhum arquivo chamado "atende_v2" dentro do caminho "gazette/spiders/base". O nome mais próximo é "atende_layoutdois" que possui uma classe chamada "BaseAtendeL2Spider" mas os raspadores estão herdando da classe "BaseAtendeV2Spider". Editei o arquivo dos raspadores para tentar usar a classe "BaseAtendeL2Spider" contida no "atende_layoutdois" e consegui iniciar a coleta dos pdfs. Estou avisando para o caso de mais alguém ter o mesmo problema. |
boa, @marcospscruz! A branch estava desatualizada, de fato! |
Vou clonar o projeto novamente e refazer a coleta. |
O raspador de Araucária dá erro e não faz o download de nenhum arquivo. Segue o log: |
Em relação à Apucarana, seguem os logs e arquivos: log_pr_apucarana_ultima_edicao.txt Nos logs da coleta completa, consta um erro mas não consegui localizar o que seria. Aparecem alguns warnings de arquivo vazio mas ao acessar os links os arquivos realmente estavam vazios. Na coleta de intervalo arbitrário aparecem alguns erros de integridade do SQLite porque esses arquivos já haviam sido baixados na coleta completa. |
Em relação a Campo Largo, seguem os logs e arquivos: log_pr_campo_largo_ultima_edicao.txt |
Em relação a Campo Mourão, seguem os logs e arquivos: log_pr_campo_mourao_ultima_edicao.txt |
Em relação a Castro, seguem os logs e arquivos: log_pr_castro_ultima_edicao.txt |
Em relação a Clevelândia, seguem os logs e arquivos: log_pr_clevelandia_ultima_edicao.txt |
Em relação a Corbélia, seguem os logs e arquivos: log_pr_corbelia_ultima_edicao.txt |
Em relação a Guaraniaçu, seguem os logs e arquivos: log_pr_guaraniacu_ultima_edicao.txt |
Em relação a Mamborê, seguem os logs e arquivos: log_pr_mambore_ultima_edicao.txt |
Em relação a Ouro Verde do Oeste, seguem os logs e arquivos: log_pr_ouro_verde_do_oeste_ultima_edicao.txt |
Boa noite, pessoal. Recentemente eu estive numa correria e não tive tempo de levar esse pull request adiante. Como os logs estão antigos vou refazer as coletas. Começando por Apucarana, seguem os arquivos: Log última edição: log_apucarana.txt Minhas observações: Em relação à coleta da última edição e do intervalo parece estar tudo OK. Já em relação à coleta completa, ocorreu um erro: FAIL: Item Validation Monitor/test_stat_monitorTraceback (most recent call last): Não sei dizer qual é a gravidade deste erro. Analisando o arquivo CSV, percebi que a primeira edição aparece com a numeração 1 quando deveria ser um número bem maior mas isso parece ser um erro da pessoa que fez o upload do arquivo. Em determinados momentos as edições pulam alguns números mas olhando o site também tem esses intervalos. Há algumas edições com mais de um arquivo na planilha. Para registro fiz uma lista dos números de edições faltantes e duplicadas: Edições faltantes: 9198, 9203, 9230, 9240, 9248, 9249, 9254, 9256, 9282, 9287, 9292, 9317, 9331, 9340, 9343, 9359, 9362, 9367, 9376, 9381, 9388, 9389, 9391, 9393, 9400, 9411, 9414, 9418, 9425, 9427, 9428, 9437, 9442, 9445, 9447, 9460, 9463, 9464, 9465, 9480, 9489, 9494, 9499, 9507, 9533, 9537, 9543, 9550, 9559, 9594, 9597, 9610, 9633, 9635, 9639, 9640, 9645, 9646, 9651, 9653, 9654, 9657, 9662, 9669-9686, 9689, 9690, 9693, 9695, 9696, 9698, 9618, 9733, 9734, 9752, 9755, 9769, 9777 Favor dar um feedback se a análise está correta porque é a primeira vez que a estou fazendo. |
Beleza, @marcospscruz! Obrigada!
Na seção de estatísticas do coleta completa tem:
Ou seja, está denunciando que tentou obter o arquivo do dia 6/fev/24 e não conseguiu pois o arquivo estava vazio. Clicando no link que tem no log e navegando no site da prefeitura manualmente até essa data, realmente está vazio. Mas isso é verificar 1 de 14 ocorrências de "item abandonado", teoricamente teria que olhar os outros 13 pois podem ter sido abandonados por motivos diferentes, não só pelo arquivo estar vazio. Mas já pesquisei por
Não é grave. Não temos como coletar um arquivo vazio mesmo. Deve ter sido cadastro errado ou algum erro no site.
Sim, isso. Também não temos o que fazer.
Também não temos o que fazer aqui. Para os próximo casos de análise, pode adotar que não precisa informar cada edição que faltar pontualmente -- isso é algo que conseguimos recuperar por meio que pesquisa no banco de dados do QD. Só informa se forem edições sequenciais por muito tempo, deixando buracos de semanas ou meses. Isso chama atenção por ser mais grave, um município sem disponibilizar DO por muito tempo. Aí a avaliamos, dentro da OKBR, cobrar o município para disponibilizar esse buraco todo que falta.
Olhei só os dois primeiros casos, mas não parece exatamente duplicado. Uma é a edição normal e outras são suplementos. Então tudo certo
Tá excelente, Marcos. É por aí mesmo. Obrigada pelo cuidado! 💯 Qualquer coisa, segue perguntando ;) |
Ok, Juliana. Então acredito que está tudo ok para Apucarana. Passando para a próxima cidade, Campo Largo. Seguem os arquivos: Log última edição: log_campo_largo.txt Para a coleta da última edição e do intervalo, parece que está tudo ok. Apenas para a coleta completa apareceu a mensagem: AssertionError: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '23' Pelo que pesquisei, em 14 dos casos, o arquivo não está mesmo disponível no site. Os outros 9 são casos de File (empty-content). |
Passando para a próxima cidade, Campo Mourão. Seguem os arquivos: Log última edição: log_campo_mourao.txt Para a coleta da última edição e do intervalo, parece que está tudo ok. Apenas para a coleta completa apareceu a mensagem: AssertionError: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '6' Pelo que pesquisei, em 5 desses casos, o arquivo não está mesmo disponível no site. Um dos casos se refere a um "File (empty-content)". |
Passando para a próxima cidade, Castro. Seguem os arquivos: Log última edição: log_castro.txt Para a coleta da última edição e do intervalo, parece que está tudo ok. Apenas para a coleta completa apareceu a mensagem: AssertionError: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '4' Pelo que pesquisei, são 4 casos de "File (empty-content)". |
Passando para a próxima cidade, Clevelândia. Seguem os arquivos: Log última edição: log_clevelandia.txt Para a coleta da última edição e do intervalo, parece que está tudo ok. Apenas para a coleta completa apareceu a mensagem: Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '5421' Entre os erros de validação aparecem erros de integridade do banco como o seguinte (297 vezes): Também há vários arquivos vazios (5314): Como há erros novos, não sei dizer se isso compromete a coleta. |
Passando para a próxima cidade, Corbélia. Seguem os arquivos: Log última edição: log_corbelia.txt Para a coleta da última edição e do intervalo, parece que está tudo ok. Apenas para a coleta completa apareceu a mensagem: AssertionError: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '16' Pelo que pesquisei, são 16 casos de "File (empty-content)" que realmente não estão no site. Eles se concentram principalmente no início de 2024 em janeiro e fevereiro. |
Passando para a próxima cidade, Guaraniaçu. Seguem os arquivos: Log última edição: log_guaraniacu.txt Para a coleta da última edição e do intervalo, parece que está tudo ok. Apenas para a coleta completa apareceu a mensagem: AssertionError: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '2' Pelo que pesquisei, são 2 casos de "File (empty-content)" que realmente não estão no site. |
Passando para a próxima cidade, Mamborê. Seguem os arquivos: Log última edição: log_mambore.txt Para a coleta da última edição e do intervalo, parece que está tudo ok. Apenas para a coleta completa apareceu a mensagem: AssertionError: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '16' Pelo que pesquisei, são 16 casos de "File (empty-content)" que realmente não estão no site. Principalmente casos em janeiro de 2024. |
Passando para a próxima cidade, Ouro Verde do Oeste. Seguem os arquivos: Log última edição: log_ouro_verde_do_oeste.txt Para a coleta da última edição e do intervalo, parece que está tudo ok. Apenas para a coleta completa apareceu a mensagem: Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0.0'. Current value: '3' Pelo que pesquisei, são 3 casos de arquivo vazio que realmente não estão no site. |
Até que enfim terminei! Desculpa a demora, pessoal! Recapitulando: Apucarana: Ok |
show, @marcospscruz! obrigada pela revisão cuidadosa! Nesse caso, como 8 de 10 raspadores estão aprovados, vale mais a pena simplesmente abandonar os 2 casos com problemas. Para Araucária, como é um problema do raspador, deixei uma issue aberta para registrar o problema (#1269) Vou fazer as remoções aqui e aceitar a PR! Graças a você, o QD ganha 8 novos municípios hoje! Muito obrigada! 🎉 ❤️ |
Se você quiser continuar contribuindo com essas revisões ainda tem as PRs #1163, #1165 e #1166 disponíveis. O que acha? Se escolher uma, só deixar um comentário falando que vai revisar. Além disso, no futuro, caso queira, você pode formalizar sua revisão. O github tem um fluxo pra isso, que deixo no print abaixo. Quando terminar os testes, basta fazer como você fez nesse último comentário mesmo, mas ao invés de apenas comentar, oficializar a revisão com uma solicitação de modificação sendo "este, este e este raspadores estão aprovados; este não. Solicito remoção desse e daquele" aí, a pessoa contribuidora (no caso eu) faz as modificações solicitadas, e depois disso, estando de acordo com seu pedido, você vai lá e aprova (é no mesmo lugar do print, mas a outra opção) Não sei se parece muito formal, mas é o que você fez (ou fará) no final das contas, atuou como revisor ;) |
63d216b
to
26c4e93
Compare
Remove raspadores com problemas
26c4e93
to
9d397c5
Compare
AO ABRIR uma Pull Request de um novo raspador (spider), marque com um
X
cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
<Descreva o seu Pull Request informando a issue (caso exista) que está sendo solucionada ou uma descrição do código apresentado>