- 1. Consideraciones generales
- 2. Preámbulo
- 3. Resumen del proyecto
- 4. Plan general de trabajo
- 5. Plan detallado de trabajo
- 6. Consideraciones para pedir tu Project Feedback
- 7. Self review
- 8. Objetivos de aprendizaje
- Este proyecto lo resolvemos de manera individual.
- El rango de tiempo estimado para completar el proyecto es de 2 a 4 Sprints.
- Enfócate en aprender y no solamente en "completar" el proyecto.
Credito: Foto de Daniel Chekalov en Unsplash
La validación de hipótesis es un proceso fundamental en la toma de decisiones basadas en evidencia, y no solamente en creencias u opiniones. En el análisis de datos, es común plantear suposiciones o hipótesis sobre relaciones, tendencias o diferencias entre las variables de los datos disponibles. La validación de estas hipótesis (confirmar o refutar) se consigue con técnicas y métodos diseñados para determinar si los resultados observados en los datos, son estadísticamente significativos o si pueden atribuirse al azar.
El levantamiento y validación de hipótesis se puede utilizar en una variedad de contextos y mercados para, por ejemplo, planificar estrategias de marketing, establecer políticas de precios, evaluar inversiones, entender mejor el comportamiento del mercado y los consumidores. Es decir, para tomar todo tipo de decisiones estratégicas.
Algunos ejemplos:
- Mercado de la moda:
Hipótesis: Cambiar el diseño del logotipo de una marca de moda líder aumentará el atractivo de la marca entre los consumidores jóvenes.
Análisis: Se podría realizar una prueba en la que se muestre el nuevo y el antiguo logotipo a un grupo de consumidores y se recopilen sus opiniones (datos) para determinar si la nueva imagen de la marca es más atractiva para el público objetivo.
- Mercado de tecnología:
Hipótesis: Reducir el precio de un producto tecnológico resultará en un aumento en la participación de mercado.
Análisis: Se podrían realizar pruebas de precios en diferentes ubicaciones geográficas o períodos de tiempo para evaluar si esa reducción de precio conduce a un aumento en la cuota de mercado.
- Mercado de bienes raíces:
Hipótesis: La proximidad a escuelas de alta calidad aumenta el valor de las propiedades residenciales.
Análisis: Se podrían comparar los precios de las propiedades ubicadas cerca de escuelas de alta calidad con las que no lo están para determinar si la hipótesis es válida.
En este proyecto, vamos a explorar un conjunto de datos con el fin de identificar patrones o características que puedan influir en la popularidad (cantidad de streams) de una canción en plataformas como Spotify, Apple Music y Deezer.
Una discográfica se enfrenta al emocionante desafío de lanzar un nuevo artista en el escenario musical global. Afortunadamente, cuenta con una herramienta poderosa en su arsenal: un extenso dataset de Spotify con información sobre las canciones más escuchadas en 2023.
La discográfica planteó una serie de hipótesis sobre qué hace que una canción sea más escuchada. Estas hipótesis incluyen:
-
Las canciones con un mayor BPM (Beats Por Minuto) tienen más éxito en términos de cantidad de streams en Spotify.
-
Las canciones más populares en el ranking de Spotify también tienen un comportamiento similar en otras plataformas como Deezer.
-
La presencia de una canción en un mayor número de playlists se relaciona con un mayor número de streams.
-
Los artistas con un mayor número de canciones en Spotify tienen más streams.
-
Las características de la música influyen en el éxito en términos de cantidad de streams en Spotify.
Como analista de datos, el desafío consiste en determinar los factores que contribuyen al éxito de una canción. Deberás validar (refutar o confirmar) estas hipótesis mediante el análisis de los datos, y proporcionar recomendaciones estratégicas basadas en tus hallazgos. En última instancia, el objetivo es que la discográfica y el nuevo artista puedan tomar decisiones informadas que aumenten sus posibilidades de conseguir el “éxito”.
Vamos a trabajar en el proceso secuencial descrito en la siguiente imagen.
Cada paso representa también el desarrollo de una habilidad necesaria para desempeñarse como una analista de datos. Es secuencial porque conseguir cada paso depende de haber hecho el anterior, no tendría sentido aplicar una técnica de análisis sin previamente haber preparado los datos ni sin haber hecho un análisis exploratorio.
Esto no quiere decir de ninguna manera que debes completar cada paso a la perfección antes de pasar al siguiente o que no tendrás que avanzar y retroceder constantemente. El proceso seguramente se verá algo así:
Por ejemplo, al hacer un análisis exploratorio, quizás detectes que hay algún aspecto de tu preparación de datos que debe mejorarse, entonces regresas, mejoras eso y luego continúas. Esto es un proceso natural en el que irás adaptando tu trabajo según los “problemas” con los que te vayas encontrando, pero siempre siguiendo una lógica.
En la siguiente imagen se describe el plan de trabajo detallado que seguiremos.
En este proyecto vas a utilizar una herramienta de Google llamada BigQuery, para el manejo de los datos, una herramienta de Microsoft llamada Power BI para la visualización de los datos:
- BigQuery
- Power BI
Utilizarás el lenguaje SQL en BigQuery . Nota la diferencia entre “lenguaje” (SQL) y “herramienta” (BigQuery), en la sección de recursos de cada meta encontrarás cursos de SQL que pueden ayudarte a comprender estos lenguajes y cómo usarlos en estas herramientas.
Este conjunto de datos contiene datos sobre las canciones más reproducidas en Spotify en 2023. Los datos se dividen en 3 tablas, la primera sobre el rendimiento de cada canción en Spotify, la segunda con el rendimiento en otras plataformas como Deezer o Apple Music, y la tercera con las características de estas canciones.
El conjunto de datos está disponible para download en este enlace dataset, ten en cuenta que es un archivo comprimido, tendrás que descomprimirlo para acceder a los archivos con los datos.
A continuación, puedes consultar la descripción de las variables que componen las tablas de este conjunto de datos:
- track_id: Identificador único de la canción. Es un número entero de 7 dígitos que no se repite
- track_name: Nombre de la canción
- **artist(s)_name**: Nombre del artista(s) de la canción
- artist_count: Número de artistas que contribuyen a la canción.
- released_year: Año en que se lanzó la canción.
- released_month: Mes en el que se lanzó la canción.
- released_day: Día del mes en que se lanzó la canción.
- in_spotify_playlists: Número de listas de reproducción de Spotify en las que está incluida la canción
- in_spotify_charts: Presencia y ranking de la canción en las listas de Spotify
- streams: Número total de transmisiones en Spotify. Representa la cantidad de veces que la canción fue escuchada.
- track_id: Identificador único de la canción. Es un número entero de 7 dígitos que no se repite
- in_apple_playlists: número de listas de reproducción de Apple Music en las que está incluida la canción
- in_apple_charts: Presencia y rango de la canción en las listas de Apple Music
- in_deezer_playlists: Número de listas de reproducción de Deezer en las que está incluida la canción
- in_deezer_charts: Presencia de la canción en las listas de Deezer
- in_shazam_charts: Presencia de la canción en las listas de Shazam
- track_id: Identificador único de la canción. Es un número entero de 7 dígitos que no se repite
- bpm: Pulsaciones por minuto, una medida del tiempo de la canción.
- key: Clave musical de la canción
- mode: Modo de la canción (mayor o menor)
- danceability_%: Porcentaje que indica qué tan adecuada es la canción para bailar
- valence_%: Positividad del contenido musical de la canción.
- energy_%: Nivel de energía percibido de la canción.
- acusticness_%: Cantidad de sonido acústico en la canción.
- instrumentality_%: Cantidad de contenido instrumental en la canción.
- liveness_%: Presencia de elementos de actuación en vivo.
- speechiness_%: Cantidad de palabras habladas en la canción.
Documentar tu proceso es una de las mejores prácticas en el análisis de datos. Aquí hay dos sugerencias más para organizarse en este proyecto, específicamente para la fase de procesamiento y preparación de los datos:
-
Haz consultas que te permitan identificar todos los elementos que deberán limpiarse. Al terminar, haz una consulta completa para crear una tabla con los datos limpios, en lugar de crear una tabla en cada paso.
-
Guarda las consultas y describe qué hace cada una de ellas. Crea un repo donde acopiar todas los recursos y usa comentarios para describir para qué sirve cada una. Esto te ayudará en proyectos futuros a recordar cómo identificar valores nulos, por ejemplo.
-
Comprende la diferencia entre vista (view) y tabla para organizarse. Muchas veces, guardar una vista te ayuda a trabajar de una manera más organizada y puedes ver la consulta que generó esa vista y modificarla rápidamente.
⌛ Rango de tiempo estimado: De 8 a 12 horas
El preprocesamiento de datos no es una etapa que se pueda pasar por alto en el análisis de datos. Su importancia es evidente en la calidad de los resultados obtenidos. Cuando los datos se procesan y preparan de manera inadecuada, pueden surgir sesgos, errores y conclusiones incorrectas. Además, el ruido en los datos sin tratar puede perjudicar la precisión de las predicciones y la calidad de las decisiones basadas en el análisis. Por lo tanto, invertir tiempo y esfuerzo en la fase inicial de preprocesamiento se recompensa a lo largo de todo el proceso de análisis de datos, asegurando resultados más confiables y significativos.
En este hito, trabajaremos con una herramienta llamada BigQuery para realizar la etapa de procesamiento y preparación de los datos. El lenguaje SQL, utilizado en esta herramienta, es ampliamente utilizado en el ambiente laboral y un buen analista de datos debe saber utilizarlo a su favor.
BigQuery es un servicio de almacenamiento y análisis de datos en la nube proporcionado por Google Cloud. Está diseñado para permitir a las organizaciones almacenar, consultar y analizar grandes volúmenes de datos de manera rápida y escalable. BigQuery se utiliza comúnmente en todas las fases del análisis de datos, incluyendo la fase de procesamiento y preparación, debido a sus capacidades de procesamiento de datos y su escalabilidad.
Meta | Objetivo | Objetivo individual | Recurso |
---|---|---|---|
🔵 Conectar/importar datos a otras herramientas | Crear en BigQuery un proyecto, un conjunto de datos e importar tablas |
|
|
🔵 Identificar y manejar valores nulos | Identificar nulos a través de comandos SQL COUNT, WHERE y IS NULL |
|
|
🔵 Identificar y manejar valores duplicados | Identificar duplicados a través de comandos SQL COUNT, GROUP BY, HAVING |
|
|
🔵 Identificar y manejar datos fuera del alcance del análisis | Manejar variables que no son útiles para el análisis a través de comandos SQL SELECT EXCEPT |
|
|
🔵 Identificar y manejar datos discrepantes en variables categóricas | Utilizar comandos de manejo de string, como LIKE o REGEXP |
|
|
🔵 Identificar y manejar datos discrepantes en variables numéricas | Utilizar comandos como MAX, MIN y AVG para identificar valores discrepantes en variables numéricas |
|
|
🔵 Comprobar y cambiar tipo de dato | Utilizar CAST para modificar el tipo de dato |
|
|
🔵 Crear nuevas variables | Crear una variable de fecha released y una de participación total en playlists |
|
|
🔵 Unir tablas | Unir tablas utilizando LEFT JOIN |
|
|
🔵 Construir tablas auxiliares | Utilizar el comando WITH para crear una tabla temporal para calcular el total de canciones por artista solista |
|
|
🤸 Sólo por diversión:
¿Piensas en una forma de hacer todos estos pasos en una misma consulta después de importadas las tablas?
⌛ Rango de tiempo estimado: De 8 a 12 horas
El análisis exploratorio de datos (AED) es una fase fundamental en la comprensión de conjuntos de datos, y las herramientas como Power BI y BigQuery desempeñan un papel crucial en este proceso. Power BI, una plataforma de visualización de datos de Microsoft, permite crear paneles interactivos y gráficos dinámicos que facilitan la exploración y comprensión de los datos. Al aprovechar las capacidades de Power BI, los usuarios finales pueden identificar patrones, tendencias y anomalías en los datos de manera efectiva.
BigQuery, por otro lado, es una potente herramienta de almacenamiento y análisis de datos de Google Cloud. Con su capacidad para manejar grandes volúmenes de datos y realizar consultas en lenguaje SQL de alto rendimiento, BigQuery es esencial para explorar datos a gran escala. Los analistas pueden utilizar BigQuery para realizar consultas avanzadas y calcular estadísticas esenciales que proporcionan información valiosa sobre el conjunto de datos.
Combinar Power BI y BigQuery brinda una solución integral para el análisis exploratorio. Los datos pueden ser extraídos y transformados en BigQuery, y luego visualizados y explorados en profundidad utilizando Power BI. Esta combinación permite desentrañar insights significativos, identificar relaciones, y tomar decisiones informadas basadas en un análisis profundo de los datos. En resumen, el análisis exploratorio se beneficia enormemente de la sinergia entre Power BI y BigQuery, facilitando la obtención de información valiosa a partir de datos complejos y extensos.
Meta | Objetivo | Objetivo Individual | Recurso |
---|---|---|---|
🟣 Agrupar datos según variables categóricas | Agrupar variables categóricas a través de tablas en Power BI |
|
|
🟣 Visualizar las variables categóricas | A través de gráficos de barras, visualizar las variables categóricas |
|
|
🟣 Aplicar medidas de tendencia central | A través de tablas en Power BI, calcular las medidas de tendencia central (Promedio y Mediana) |
|
|
🟣 Aplicar medidas de dispersión | Calcular medidas de dispersión a través de la desviación estándar |
|
|
🟣 Calcular correlación entre variables | Calcular correlación en BigQuery a través de CORR |
|
|
🤸 Sólo por diversión:
¿Piensas en algún gráfico que podría ayudar a ver y entender la relación entre dos variables?
⌛ Rango de tiempo estimado: De 8 a 12 horas
La validación de hipótesis es un proceso crucial en la estadística y la investigación científica. Se refiere a la evaluación de afirmaciones o suposiciones acerca de una población o un fenómeno, a través del examen de datos recopilados de una muestra de esa población. En esencia, se trata de determinar si las suposiciones hechas sobre una población son respaldadas por la evidencia empírica proporcionada por los datos.
En este hito, buscamos responder las hipótesis planteadas por la discográfica:
- Las canciones con un mayor BPM (Beats Por Minuto) tienen más éxito en términos de streams en Spotify
- Las canciones más populares en el ranking de Spotify también tienen un comportamiento similar en otras plataformas como Deezer
- La presencia de una canción en un mayor número de playlists se relaciona con un mayor número de streams
- Los artistas con un mayor número de canciones en Spotify tienen más streams
- Las características de la música influyen en el éxito en términos de streams en Spotify
Meta | Objetivo | Objetivo individual | Recurso |
---|---|---|---|
🔴 Validar hipótesis | Validar las hipótesis levantadas a través de la correlación y scatter plot |
|
|
🤸 Sólo por diversión:
¿Crees que se podría validar estas hipótesis por grupos menores, como por ejemplo, las canciones con fecha de lanzamiento en 2023?
¿Piensas en alguna otra hipótesis que puedas analizar?
⌛ Rango de tiempo estimado: De 8 a 12 horas
Power BI se ha convertido en una de las soluciones líderes en el mercado para la creación de informes interactivos y paneles de control que permiten a las organizaciones tomar decisiones informadas. Con Power BI, puedes conectar y transformar datos de diversas fuentes, como bases de datos, hojas de cálculo y servicios en la nube, y luego crear visualizaciones impactantes y dinámicas.
En resumen, Power BI es una herramienta esencial para cualquier empresa o profesional que desee convertir datos en información significativa, tomar decisiones estratégicas y comunicar de manera efectiva los insights a través de visualizaciones atractivas y accesibles.
En este hito, trabajaremos con Power BI también para crear un dashboard organizado que genere información al negocio. Este es el momento de organizar tus gráficos creados en el paso de análisis exploratorio y crear un ambiente amigable para la compañía discográfica.
Meta | Objetivo | Objetivo individual | Recurso |
---|---|---|---|
🟠 Representar datos a través de tabla resumen o scorecards | Crear scorecards para los números generales de la base de datos |
|
|
🟠 Representar datos a través de gráficos simples | Representar los datos a través de gráficos de barras y líneas |
|
|
🟠 Representar datos a través de gráficos o visuales avanzados | Representar datos a través de scatter plot |
|
|
🟠 Aplicar opciones de filtros para manejo e interacción | Incluir filtros para visualizar los resultados por categorías y por fecha |
|
|
🤸 Sólo por diversión:
¿Piensas en otros gráficos que se podrían utilizar para construir tu dashboard?
⌛ Rango de tiempo estimado: De 8 a 12 horas
Tanto Google Slides como Power BI son herramientas valiosas para presentar datos en una presentación de negocios. Google Slides es ideal para presentaciones visuales y concisas, mientras que Power BI es una opción poderosa para analizar y explorar datos de manera interactiva. Elige la herramienta que mejor se adapte a tus necesidades y audiencia, y crea una presentación impactante que respalde tus argumentos y ayude a tomar decisiones informadas.
En este hito, puedes elegir presentar solamente a través de Google Slides o mezclar con tu dashboard de Power BI en presentación.
Meta | Objetivo | Recurso |
---|---|---|
🟢 seleccionar gráficos e información relevante | Resumir información para una presentación de 5 minutos |
|
🟢 crear una presentación | Crear una presentación de slides que te guíe y presente los resultados más importantes | |
🟢 presentar resultados con conclusiones y recomendaciones | Grabar un video de máximo 5 minutos explicando sus conclusiones y recomendaciones |
🤸 Sólo por diversión: ¿Puedes armar una presentación como si estuvieras presentando al representante de la compañía discográfica y al nuevo artista que quiere lanzarse en el mundo musical?
ℹ️ Al finalizar el proyecto comparta el enlace/liga/link público de una carpeta de Google Drive conteniendo un archivo con las consultas (queries) utilizadas y el archivo de Power BI en el que trabajaste el proyecto, y donde se pueden ver claramente todos los pasos que seguiste y los resultados que obtuviste.
Antes de agendar tu Project Feedback con tu coach, asegúrate de que tu proyecto:
- [] Hiciste la limpieza de los datos y uniste las tablas en BigQuery.
- [] Generaste tablas, gráficos, cálculos de cuartil y correlación durante tu análisis exploratorio.
- [] Aplicaste la técnica de segmentación y de validación de hipótesis
- [] Conectaste la base de datos limpia a Power BI para crear un dashboard informativo.
- [] Creaste una presentación simple usando Google Slides, para guiarte en tu presentación en video.
- [] Grabaste y compartiste un video de máximo 5 minutos, explicando tus conclusiones, hallazgos y recomendaciones para el negocio. Usa Loom para grabarte a ti misma presentando y mostrando la pantalla con tu presentación.
- [] Compartiste el enlace/liga/link público de una carpeta de Google Drive conteniendo un archivo con las consultas (queries) utilizadas y el archivo de Power BI en el que trabajaste el proyecto, y donde se pueden ver claramente todos los pasos que seguiste y los resultados que obtuviste.
A continuación se muestran una tabla con las habilidades y objetivos de aprendizaje.
Uso la columna Self review
para evaluar si haz alcanzado o no cada objetivo.
Habilidades | Objetivos de aprendizaje | Self review |
---|---|---|
🟦 Procesar y preparar la base de datos | 🔵 Conectar/importar datos a herramientas |
|
🔵 Identificar y manejar valores nulos |
|
|
🔵 Identificar y manejar valores duplicados |
|
|
🔵 Identificar y manejar datos fuera del alcance del análisis |
|
|
🔵 Identificar y manejar datos discrepantes en variables categóricas |
|
|
🔵 Identificar y manejar datos discrepantes en variables numéricas |
|
|
🔵 Comprobar y cambiar tipo de dato |
|
|
🔵 Crear nuevas variables |
|
|
🔵 Unir tablas |
|
|
🔵 Construir tablas auxiliares |
|
|
🟪 Hacer un análisis exploratorio | 🟣 Agrupar datos según variables categóricas |
|
🟣 Visualizar las variables categóricas |
|
|
🟣 Aplicar medidas de tendencia central |
|
|
🟣 Aplicar medidas de dispersión |
|
|
🟣 Calcular correlación entre variables |
|
|
🟥 Aplicar técnica de análisis | 🔴 Validar hipótesis |
|
🟧 Resumir información en un dashboard o reporte | 🟠 Representar datos a través de tabla resumen o scorecards |
|
🟠 Representar datos a través de gráficos simples |
|
|
🟠 Representar datos a través de gráficos o visuales avanzados |
|
|
🟠 Aplicar opciones de filtros para manejo e interacción |
|
|
🟩 Presentar Resultados | 🟢 Seleccionar gráficos e información relevante |
|
🟢 Crear una presentación |
|
|
🟢 Presentar resultados con conclusiones y recomendaciones |
|
Reflexiona y luego marca los objetivos que has llegado a entender y aplicar en tu proyecto. Piensa en eso al decidir tu estrategia de trabajo.
-
Cargar información a una base de datos
Links
- Mini curso BigQuery
- Cómo empezar con BigQuery (sandbox - versión gratuita)
- Qué es BigQuery
- Cómo crear un Project, Dataset y cargar tabla en BigQuery
- Concepto valores nulos
- versión en audio
- Qué es una consulta (query)
- Cómo guardar queries
- Cómo idenficar nulos usando COUNT, WHERE y IS NULL
- Concepto valores duplicados
- versión en audio
- Cómo identificar duplicados a través de GROUP BY y HAVING (Ve también la diferencia entre los comandos WHERE y HAVING)
- Concepto valores fuera del alcance
- versión en audio
- Cómo utilizar EXCEPT para selecionar variables
- Cómo utilizar comandos LIKE y REGEXP
- Documentación Google sobre String Functions
- Concepto variables categóricas
- Concepto variables categóricas (versión en audio)
- Video sobre tipos de variables
- Identificar valores discrepantes en variables numéricas con MAX, MIN y AVG
- Concepto variables numéricas
- Tipos de datos en SQL
- Tipos de datos en SQL
- Cambiar tipo de dato con CAST
- Concepto crear nuevas variables
- versión en audio
- Como crear nuevas variables con CONCAT y operaciones matemáticas
- Tipos de JOIN en SQL
- Diferencia entre VIEW y CREATE TABLE
- Cómo utilizar comando WITH y para qué sirve
-
Hacer un análisis exploratorio
Links
- Concepto variables categóricas
- versión en audio
- Video sobre tipos de variables
- Link para download de Power BI Desktop
- Video download y instalación de Power BI
- Cómo empezar con Power BI
- Conectar datos de bigquery a Power BI
- Cómo crear una tabla matrix en Power BI
- Cómo crear gráficos en Power BI
- Gráficos de barras o columnas en Power BI
- Concepto estadísticas descriptivas
- 🔈 Concepto estadísticas descriptivas (versión en audio)
- Concepto medidas de tendencia central
- 🔈 Concepto medidas de tendencia central (versión en audio)
- Cómo crear una tabla con promedio y mediana en Power B
- Concepto Medidas de dispersión
- Concepto desviación estándar
- Desviación estándar en Power BI
- Concepto correlación de Pearson
- Cómo calcular correlación en BigQuery
-
Aplicar técnica de análisis
-
Resumir información en un dashboard o reporte
-
Presentar Resultados
Links
- Concepto presentar resultados
- Que es Data Storytelling
- diferentes formas de presentar una misma información
- Video sobre como crear presentaciones en Google Slides
- Compartir presentación para trabajar en conjunto
- Artículo sobre presentar datos
- Artículo sobre presentar datos
- Video tips para una presentación