LINK APRESENTAÇÃO SLIDES: https://www.canva.com/design/DAFOmDZrmQs/yHFeNY5o-9A5k_NP3BepvA/view?utm_content=DAFOmDZrmQs&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton
USPTO - United States Patent Trade Office precisa de sua ajuda para analizar as patentes dos anos de 2010 até 2022. Precisamos montar uma base com o numbero do documento, titulo da patente, abstract e sua data da publicação.
- Run the jupyter notebook
- Extração
- Web Scrapping USPTO Website
- Carregar as inforções dos arquivos no banco de dados
- Extrair o xml do zip
- Separar o XML grande me pequenos XML
- Transformação
- Ler cada XML e pegar os dados dos requisitos ja fazendo a limpeza
- Carregar no dataframe pandas
- Salvar logs de erros
- Carregamento
- Carregar os dados limpos no banco de dados
- Universidade Federal Fluminence
- KISSPlatform Europe B.V.
- Universidade Federal Fluminence
- KISSPlatform Europe B.V.