DAG para parseo masivo de PDF #229

aVolpe · 2021-03-01T21:42:27Z

Actualmente se cuenta con un microservicio que es capaz de recibir un PDF y retornar en formato JSON los datos necesarios para el análisis, la idea de este ticket es crear un DAG que permita hacer este proceso automático y con todos los PDF con los que contamos.

Notes

Hay una buena cantidad de pdfs que fueron generados de manera incorrecta (con patrimonio neto, activos y pasivos en 0), es necesario detectar estos casos y volver a bajar. Una posible solución para esto es que, durante la ejecución del DAG de este ticket, el parser retorne si este es o no el caso y el DAG elimine la fila correspondiente, de esta manera se podrá ejecutar posteriormente el dag que baja los PDF y debería bajar uno correcto.
Debe trabajar en paralelo

Definition of done

DAG creado que guarde el resultado del parseo del PDF
Todas las declaraciones juradas que se bajaron se parsean y se guardan sus datos.

aVolpe added the etl Issue related with the ETL process label Mar 1, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DAG para parseo masivo de PDF #229

DAG para parseo masivo de PDF #229

aVolpe commented Mar 1, 2021 •

edited

Loading

DAG para parseo masivo de PDF #229

DAG para parseo masivo de PDF #229

Comments

aVolpe commented Mar 1, 2021 • edited Loading

Notes

Definition of done

aVolpe commented Mar 1, 2021 •

edited

Loading