-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
b8215ef
commit ac83b7b
Showing
6 changed files
with
48 additions
and
14 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,27 @@ | ||
# **Arquitetura do Querido Diário** | ||
|
||
A arquitetura do **Querido Diário** é um reflexo das decisões técnicas que conectam duas pontas: o conjunto de soluções necessárias para enfrentar os obstáculos impostos pela disponibilização de diários oficiais e o interesse pela abertura destes dados. Assim, podemos resumir o fluxo do projeto para cada um dos tipos de diário oficial às etapas abaixo e compreendê-los mais detalhadamente a seguir: | ||
|
||
- **Coletar:** obter arquivos de diários oficiais na fonte, os sites publicadores | ||
- **Processar:** aplicar tratamentos sobre os arquivos originais obtidos | ||
- **Disponibilizar:** permitir acesso e pesquisa nos conteúdos armazenados | ||
|
||
Sendo assim, o processo de extração de texto possui o seguinte fluxo: | ||
|
||
1. Spiders coletam os arquivos e metadados, que são salvos no portgresql e o arquivo no Sistema de Arquivos. | ||
2. Diariamente um job do data processing busca no postgresql quais os arquivos que ainda não foram processados - existe uma flag na base para isso. | ||
3. O job baixa o arquivo original. | ||
4. O job manda o arquvo original para o Apache Tika e obtem o texto puro. | ||
5. O job grava um arquivo txt no Sistema de Arquivos com o texto puro junto ao arquivo original. | ||
6. O job grava no index do motor de busca (opensearch) um novo registro contendo os metadados, o texto do documento e url de acesso tanto do arquivo original quanto do arquivo .txt. | ||
7. O job marca o registro do diario processado no postgresql como "feito". | ||
|
||
Uma vez que os registros estão no OpenSearch, a API consegue buscar por eles. Assim, a API traduz a requisição que ele recebe em um query no Opensearch e retorna o resultado para o usuário. | ||
|
||
### **Jornada do Dado** | ||
|
||
____________________________________________________________________________________________________________ | ||
<img src="./imagens/fluxo_dados2.png"/> | ||
|
||
____________________________________________________________________________________________________________ | ||
|
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,7 +1,12 @@ | ||
# **Visão Geral do Produto** | ||
|
||
O diário oficial é uma publicação feita pelas esferas da administração pública brasileira, seja federal, estadual ou municipal e dos poderes executivo, legislativo e judiciário, que serve para tornar oficial para a população as ações tomadas pelos poderes. | ||
O **diário oficial** é uma publicação feita pelas esferas da administração pública brasileira, seja federal, estadual ou municipal e dos poderes executivo, legislativo e judiciário, que serve para tornar oficial para a população as ações tomadas pelos poderes. Apesar de públicos, esses documentos são disponibilizados por vias difíceis de serem acompanhadas. O **Querido Diário** é o projeto que enfrenta esse deserto de dados, oferecendo uma ferramenta que amplia o acesso à informação sobre a administração pública brasileira em sua mais local instância - os municípios -, através da abertura e centralização de diários oficiais eletrônicos. Não é uma empreitada fácil, sobretudo por existirem 5570 municípios no país e grandes discrepâncias quanto à existência e maturidade na disponibilização online de seus dados e informações. | ||
|
||
O Diário Oficial da União (DOU) e os Diários Oficiais dos Estados (DOE) são, frequentemente, objetos de interesse coletivo já consolidados, enquanto os Diários Oficiais Municipais (DOM), especialmente de cidades que não fazem parte de uma região metropolitana, são menos acompanhados. Não à toa. Apesar de públicos, esses documentos são disponibilizados por vias difíceis de serem acompanhadas. | ||
## **Declaração do Problema** | ||
|
||
O Querido Diário é o projeto que enfrenta esse deserto de dados, oferecendo uma ferramenta que amplia o acesso à informação sobre a administração pública brasileira em sua mais local instância - os municípios -, através da abertura e centralização de diários oficiais eletrônicos. Não é uma empreitada fácil, sobretudo por existirem 5570 municípios no país e grandes discrepâncias quanto à existência e maturidade na disponibilização online de seus dados e informações. | ||
Para este projeto foi proposto o desenvolvimento de rotinas de processamento de dados, criação de pontos de acesso na API e desenvolvimento de interfaces na plataforma web para atender as situações abaixo: | ||
|
||
| | | | ||
| ------------------------- | -------------------------------------------------------------------- | | ||
| **Como Jornalista** | Conseguir realizar o download dos resultados da busca realizada na plataforma web do Querido Diário para sistematizar o processo de apuração de reportagens | | ||
| **Como Pesquisador(a)** | Conseguir realizar o download dos textos completos dos diários oficiais, para realizar meus próprios recortes e processamentos de forma transversal | |