-
-
Notifications
You must be signed in to change notification settings - Fork 410
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Novo spider]: Arraial do Cabo - RJ #1261
Comments
@ogecece o que você acha que fazemos aqui? podemos invalidar esse município pela falta de consistência das datas ou então - como temos toda a série histórica anterior - poderíamos ignorar isso e considerar que, nesse site, os raspadores começam em 2024-08-22. |
Seria bem ineficiente pra raspagem completa, mas a busca com data início + data fim pro mesmo dia retorna os diários daquele dia direitinho. Desse jeito dá pra integrar |
inicialmente, tive a impressão que o filtro por data não estava funcionando também, mas realmente... Beleza, então, obrigada! |
e @slfabio este é um dos municípios que vocês acompanham? (fiquei em dúvida se adicionava ao quadro ou não) |
É sim, @trevineju. Do Estado do Rio de Janeiro, o único que não acompanhamos é a capital. |
Acho que não vai ser uma boa se confiar no filtro de datas do site. As vezes esse filtro não funciona da forma esperada. Por exemplo, essa publicação do dia Mas se eu filtrar apenas os registros do dia 28/09/2023, não vem nada. URL com filtro:
|
Subi o PR #1275 com essa implementação. |
URL da forma de consulta
https://portal.arraial.rj.gov.br/diarios_oficiais_web
Período de publicação
é o atual local de publicação, porém confuso
Formato da publicação
Os diários oficiais são publicados em PDF (texto)
Conteúdo da publicação
Diário único: documento publicado é uma edição completa do diário oficial
Detalhes do site de publicação
Possui paginação
Observações
O raspador para rj_arraial_do_cabo parou de funcionar em 2024-08-22. O motivo foi migração da URL.
Parece que os diários do site anterior foram migrados, porém a data que consta no site não é a data do documento, mas sim a data em que foi adicionado ao site. Isso fica mais evidente ao navegar na paginação (por exemplo, na página 7) todos os diários são de 16/agosto, enquanto, ao abrir os documentos, aparece outra data.
Não existe uma issue aberta para esse município
Info
Município retirado de produção até a manutenção do raspador
The text was updated successfully, but these errors were encountered: