Analisis de afiliados activos en el Seguro Integral de Salud (SIS) con diagnóstico de Diabetes Mellitus
- Descripción del proyecto
- MVP
- Alcance del MVP
- Stack de tecnologías y herramientas
- Metodología de gestión de proyectos
- Etapas del proyecto
- Contenido del proyecto
- Integrantes del equipo
Este proyecto utiliza información publicada que proporciona información nominal de los afiliados activos al Seguro Integral de Salud (SIS) que tienen al menos un diagnóstico definitivo de Diabetes Mellitus (DM). Se incluye también información respecto de si ha recibido atenciones en los últimos tres meses según la fecha de corte de los afiliados activos. La granularidad de esta información está al nivel de afiliado, cada registro representa un afiliado activo al SIS con diagnóstico de Diabetes Mellitus. La evaluación para determinar si un afiliado ha tenido un diagnóstico de DM se ha realizado sobre las atenciones desde el año 2018 a la fecha de corte considerando los diagnósticos definitivos. Este proyecto busca, utilizando la ciencia de datos, identificar características que sean influyentes y puedan minorizar los gastos de hospitalizaciones en pacientes con DM, revisando cómo optimizar el servicio existente.
El presente proyecto trata de resolver los siguientes problemas:
📌 Gestión de la salud de pacientes diabéticos para identificar patrones de comorbilidades como obesidad, hipertensión o problemas de salud mental; analizar el impacto de estas comorbilidades en el uso de servicios de salud.
📌 Optimización de recursos en el sistema de salud para determinar los costos asociados a la atención de pacientes diabéticos y sus hospitalizaciones; evaluar si ciertos perfiles de pacientes (edad, grupo etario,sexo, ubicación) requieren más recursos o tienen más hospitalizaciones.
📌 Disparidades geográficas y demográficas para detectar diferencias en la calidad o frecuencia de atención según departamento o provincia; identificar grupos demográficos (edad, sexo) con mayor riesgo o menos acceso a servicios.
📌 Evaluación de la carga de la enfermedad en el sistema para analizar la frecuencia de hospitalizaciones y días de hospitalización para entender la gravedad promedio de los casos; medir el impacto económico de la diabetes mellitus en el sistema de salud.
➡️ Para gestionar este proyecto utilizamos Kanban, un método de gestión de proyectos que ayuda a los equipos a visualizar su trabajo, mejorar la eficiencia y encontrar un equilibrio entre las tareas y la disponibilidad de los miembros.
➡️ Asimismo, implementamos un Brief, un documento que establece los objetivos y la dirección de un proyecto, y que guía a los miembros del equipo para que trabajen de manera eficiente.
➡️ Para la gestión, organizamos las fases del proyecto en cuatro sprints semanales.
➡️ También utilizamos Google Meet para las daily meeting y las reuniones con el Team Leader, como así también Slack y WhatsApp para la comunicación diaria entre los miembros del equipo.
Primeramente, se definió el dataset a utilizar, como así las problematicas a tratar con el mismo, detallados con anterioridad.
Se realizó una limpieza del dataset con Power Query; también se creó el diagrama entidad relación dentro de Power BI, tomando como referencia un diseño previo hecho en Draw.io.
Se realizó un Análisis Univariado: se analizaron las distribuciones de las variables numéricas y categóricas, incluyendo la edad, el valor neto y el valor neto hospitalario, se encontraron distribuciones sesgadas y con outliers en algunas variables, lo que sugiere la necesidad de transformaciones o eliminación de outliers.
En el Análisis Bivariado: se analizaron las relaciones entre las variables numéricas y categóricas, incluyendo la relación entre el valor neto hospitalario y el sexo, se crearon gráficos de barras apiladas y histogramas para visualizar las relaciones entre las variables.
En el Análisis Multivariado: se creó un gráfico de pares (pair plot) para visualizar las relaciones entre las variables numéricas, se encontraron relaciones complejas entre las variables, lo que sugiere la necesidad de un modelo que pueda capturar estas interacciones.
Se realizó un mockup en Canva para establecer una idea y criterio general acerca de la creación de los gráficos y la disposición de los mismos en el tablero. Luego, se crearon las visualizaciones en Power BI.
Desarrollamos un modelo predictivo del riesgo de hospitalización mediante aprendizaje automático, centrándonos en la selección de características, el equilibrio de datos y el escalamiento robusto.
Probamos varios clasificadores y XGBoost superó a otros después de la optimización mediante RandomizedSearchCV.
El modelo XGBoost final logró una puntuación ROC AUC casi perfecta de 0,992.
La validación cruzada garantizó la generalización del modelo y se siguieron las mejores prácticas para la reproducibilidad y el rendimiento.
Finalmente, se presentó el MVP en el Demo Day del día 12/12/2024 utilizando PowerPoint para la presentación del tablero y haciendo una demostración en vivo del deploy, utilizando Streamlit.
Vista General de la presentación y Dashboard Power BI |
---|
![]() |
Vista General Modelo Predictivo |
---|
![]() |
Obteniendo Resultado Predicción Modelo Machine Learning |
---|
![]() |
- 🤖 Deploy: Modelo de Machine Learning. Deploy
- 📂 Datasets: Acceso al dataset utilizado para el MVP. Enlace al dataset. Datasets
- 📑 Presentación: Presentación del proyecto en PowerPoint. Enlace a la presentación. Presentación