Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[dados] Estruturar ontologia e organização para queries #1211

Open
rdahis opened this issue May 2, 2022 · 4 comments
Open

[dados] Estruturar ontologia e organização para queries #1211

rdahis opened this issue May 2, 2022 · 4 comments
Assignees
Labels
enhancement New feature or request

Comments

@rdahis
Copy link
Member

rdahis commented May 2, 2022

Desafio

Ter um sistema de gestão de consultas/views/tabelas nativas que escale para uso interno e para projetos com clientes. Tem que ser fácil buscar, entender, editar, aplicar no Metabase, etc.

Solução ideal

Uma busca no site, com metadados e ligações ao BigQuery. Criaríamos uma aba "análises" com uma busca própria.

Metadados relevantes: organização, nível da observação, cobertura espacial, cobertura temporal, colunas, etc.

Solução provisória

Estabelecer (1) estrutura de pastas (datasets/tables), (2) ontologia de nomeação, (3) manual de estilo para escrita de queries.

Exemplos

Ontologia SMTR: https://github.com/RJ-SMTR/maestro/wiki/Ontologia-de-nomea%C3%A7%C3%A3o-Datasets-e-Tabelas

@rdahis rdahis added the enhancement New feature or request label May 2, 2022
@d116626 d116626 changed the title Estruturar ontologia e organização para queries [dados] Estruturar ontologia e organização para queries May 2, 2022
@rdahis
Copy link
Member Author

rdahis commented May 3, 2022

Acumulando minha primeira versão pra BD aqui: https://github.com/basedosdados/.github/wiki/An%C3%A1lises

@rdahis
Copy link
Member Author

rdahis commented May 5, 2022

Encaminhamentos da reunião com @d116626 e @fernandascovino:

  • Definir ontologia de nomeação de perguntas
  • @gabriel-milan: refletir sobre criar nível organization no repositório queries
  • Como pensar em tabelas auxiliares (necessário para análises complexas, sub-queries, dados gigantes)
  • Criar exemplos de tabelas de metadados
  • Ver como subir a documentação do DBT, se é possível definir novos metadados e se tem como subir o DBT cloud
  • Estudar API do Metabase: https://www.metabase.com/docs/latest/api-documentation.html
  • Testar se adicionar nova coluna em tabela quebra os modelos e perguntas no Metabase

@rdahis
Copy link
Member Author

rdahis commented May 5, 2022

Pontos para o futuro:

  • table: fonte da verdade é o repositório queries com dbt, com metadados na tabela separada ou virtuais (como no CKAN)

  • question: fonte da verdade é o Metabase, metadados na tabela separada, por enquanto sem versionamento

    • evangelizar clientes para preencher metadados também quando criarem perguntas
    • tem como saber metadados básicos via API do Metabase? Data de criação, url, título, etc.
    • se mudar título, ele automaticamente vai mudar o question_id => atualizar no metadado
  • clientes terão:

    • projeto no GCP
    • repositório de queries
    • agent no prefect (cada agent tem sua própria credencial e seu billing)

@rdahis
Copy link
Member Author

rdahis commented May 6, 2022

Pra ler sobre opções de mono-repo ou não do dbt: https://discourse.getdbt.com/t/how-to-configure-your-dbt-repository-one-or-many/2121

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

4 participants