El desarrollo de la tecnología ha hecho que la mayoría de los datos almacenados de forma física ahora lo estén de forma digital. Esto ha permitido que mediante algoritmos computacionales podamos extraer información de estos datos, ya sea patrones, modelos de predicción o identificar anomalías. Minamos estos datos para obtener conocimiento. En este curso se espera enseñar todo el proceso para poder minar conjuntos de datos, también conocido como Descubrimiento de Conocimiento en Base de Datos (Knowledge Discovery in Databases o KDD).
El objetivo de este curso es proporcionar al alumno elementos que le permitan entender las principales teorías y prácticas de la emergente área de Minería de Datos. Al final del curso, el alumno debera tener un conocimiento teorico y práctico de las principales técnicas utilizadas actualmente en la creación de programas capaces de extraer conocimiento relevante y patrones desde distintas fuentes y bases de datos. Ademas, el alumno conocera algunas de las principales aplicaciones donde en la actualidad este tipo de técnicas están teniendo una amplia aceptacion, comprendiendo sus potencialidades y limitaciones.
- Introducción: concepto y proceso de minería de datos, tipos de problemas relevantes.
- Data Warehouse y OLAP: arquitecturas, implementaciones, aplicaciones en minería de datos.
- Web scrapping: obtención de datasets de páginas web.
- Preparacion de la información: datos ruidosos, datos faltantes, reducción de la dimensionalidad y transformaciones, integración e inconsistencias.
- Reglas de Asociación: algoritmo Apriori, FP-growth.
- Reducción de dimensionalidad: análisis de las componentes principales (PCA).
- Regresión: regresión lineal con funciones de base polinomial y exponencial.
- Clasificación: regresión logística, arboles de decisión y random forest, razonamiento en base a casos: KNN, KD-Trees. Naïve Bayes.
- Métodos de evaluación de clasificadores: hold out, cross validation, bootstrapping, confusion matrix, recall, precision, F1-score.
- Clustering: clustering particional: K-Means, Mean Shift, EM-GMM. Medidas de similaridad, clustering aglomerativo, clustering en subespacios. Evaluación de clustering.
- Aplicaciones: visualizacion, detección de anomalías.
- Aplicaciones avanzadas: recommender systems, deep learning, reinforcement learning.
Los videos de las clases se encuentran aquí.
El calendario de clases se puede revisar aquí.