Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

DAG para parseo masivo de PDF #229

Open
2 tasks
aVolpe opened this issue Mar 1, 2021 · 0 comments
Open
2 tasks

DAG para parseo masivo de PDF #229

aVolpe opened this issue Mar 1, 2021 · 0 comments
Labels
etl Issue related with the ETL process

Comments

@aVolpe
Copy link
Member

aVolpe commented Mar 1, 2021

Actualmente se cuenta con un microservicio que es capaz de recibir un PDF y retornar en formato JSON los datos necesarios para el análisis, la idea de este ticket es crear un DAG que permita hacer este proceso automático y con todos los PDF con los que contamos.

Notes

  • Hay una buena cantidad de pdfs que fueron generados de manera incorrecta (con patrimonio neto, activos y pasivos en 0), es necesario detectar estos casos y volver a bajar. Una posible solución para esto es que, durante la ejecución del DAG de este ticket, el parser retorne si este es o no el caso y el DAG elimine la fila correspondiente, de esta manera se podrá ejecutar posteriormente el dag que baja los PDF y debería bajar uno correcto.
  • Debe trabajar en paralelo

Definition of done

  • DAG creado que guarde el resultado del parseo del PDF
  • Todas las declaraciones juradas que se bajaron se parsean y se guardan sus datos.
@aVolpe aVolpe added the etl Issue related with the ETL process label Mar 1, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
etl Issue related with the ETL process
Projects
None yet
Development

No branches or pull requests

1 participant