Autoría de documentos

Estado: En desarrollo

Autoría de documentos

Trabajo Fin de Grado sobre el estudio de la Identificación de la Autoría de Documentos (Authorship). Haciendo uso de Text Mining, modelos de Machine Learning y Deep Learning. El problema Authorship es un problema de Aprendizaje Automático de clasificación multietiqueta, donde la característica más importante o única se presenta en forma de texto libre.

Documentación

La documentación extensa del proyecto se encuentra en el trabajo presentado a la Universidad de Granada sobre la cual se realizo la defensa obteniendo una calificación de 9,8.

La documentación hace referencia a numerosos papers relacionados con el problema Authorship. Algunos de los más relevantes se encuentran alojados en el directorio papers.

Uso

El paquete provee de una extensión de la librería sklearn dedicada al Procesamiento del Lenguaje Natural.

Requerimientos

Versión del lenguaje de programación:

Python 3.6

Librerías de python:

Instalación

La instalación se puede realizar mediante el fichero requirements.txt:

python -m pip -r requirements.txt

Conjunto de datos

Se han testeado los modelos sobre el conjunto de datos de iniciatiavas del congreso 2008.

Dataset

El conjunto de datos se encuentra nativamente en formato XML. Tras eliminar los datos superfluos del mismo, la etiqueta y los documentos se han pasado a formato CSV. Siguiendo esta estructura:

Etiqueta	Texto
Persona 1	Parrafos concatenados 1
Persona 2	Parrafos concatenados 2
Persona 1	Parrafos concatenados 3

Organización del proyecto

El paquete Authorship engloba el conjunto de herramientas relacionadas con NLP que se han aplicado expresadas por el siguiente esquema:

Un fichero de funciones auxiliares para la lectura de datos y limpieza del dataset.

Puesto que la motivación del proyecto es estudiar la influencia de las distintas herramientas o transformaciones en tareas de clasificación los modelos finales se encuentra implementados en la sección de testing:

Authorship_test

Referencias de metodología

La metodología aplicada a lo largo del proyecto para la presentación de resultados ha seguido los estándares de división entre entrenamiento y test así como la aplicación de la técnica de validación cruzada.

Por otro lado, la guía que se ha seguido ha sido la aportada por Google.

Guía Google

Name		Name	Last commit message	Last commit date
Latest commit History 41 Commits
.vscode		.vscode
Authorship		Authorship
doc		doc
exe		exe
papers		papers
ppt		ppt
script		script
tests		tests
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
docker-compose.yml		docker-compose.yml
dockerfile		dockerfile
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Autoría de documentos

Documentación

Uso

Requerimientos

Instalación

Conjunto de datos

Organización del proyecto

Referencias de metodología

About

Releases

Packages

Languages

License

rojo1997/Authorship

Folders and files

Latest commit

History

Repository files navigation

Autoría de documentos

Documentación

Uso

Requerimientos

Instalación

Conjunto de datos

Organización del proyecto

Referencias de metodología

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages