Skip to content

aldemarbr94/Commerce_Data_Analysis_and_Recommendations

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

banner_tipster

COMMERCE DATA ALALYSIS AND RECOMMENDATIONS


Tabla de Contenido



El Repositorio

En el repositorio se encuentran los siguientes archivos:

  • 1. ETL: Archivos en los cuales se documenta el proceso de ETL (Extract, Transform, Load).
  • 2. Datasets: Contiene el conjuntos de datos normalizados, respecto del origen, para ser utilizados en el proyecto y que no provienen de API's.
  • 3. EDA: Archivos en los cuales se documenta el proceso de EDA (Exploratory Data Analysis).
  • 4. Model ML: Jupyter Notebooks con pruebas para el desarrollo del Modelo de Machine Learning para el proyecto.
  • 5. Sources: Aquí se encuentra los archivos anexos como imágenes, videos y demás recursos necesarios para el desarrollo del proyecto.
  • 6. Documentation: Documentos relacionados al desarrollo del proyecto.


Autores

Nombre Rol Correo GitHub Linkedin
Leydy Lucena Peñaloza Rojas Technical Project Managet, Data Engineer, Data Scientist [email protected] leydypenaloza leydy-penaloza
Edisson Camilo Ortiz López Data Analyst, Data Engineer, Visual Designer [email protected] cistelsa camilo-ortiz-cistelsa
Aldemar Bohorquez Rodriguez Data Engineer, Data Scientist, Machine Learning Engineer [email protected] aldemarbr94 aldemar-bohorquez-rodriguez
Mayren Gabriela Silva Basto Data Analyst, Data Engineer, Machine Learning Engineer [email protected] MayrenS95 mayren-gabriela-silva-basto
Yesica Milagros Leon Ccahuana Data Analyst, Data Engineer, Data Scientist [email protected] yesicamilagros yesica-leon-ccahuana


Introducción

Como consultores de datos, centrados en el análisis del mercado del turismo estadounidense, presentamos a continuación el desarrollo de este proyecto. Nuestra misión es proporcionar a los clientes finales herramientas que les permitan mejorar sus campañas de marketing, tomar decisiones informadas sobre inversiones y ofrecer recomendaciones basadas en experiencias previas para sus usuarios.

El mercado del turismo en Estados Unidos es dinámico y competitivo. Nuestro proyecto aborda la necesidad de comprender mejor este mercado y aprovechar sus oportunidades; con este objetivo en mente, hemos desarrollado un conjunto de herramientas y análisis que ayudarán a nuestros clientes a optimizar sus estrategias.

En este repositorio, encontrará detalles sobre nuestra metodología, análisis de datos, modelos de machine learning y visualizaciones que respaldan nuestras recomendaciones. Esperamos que este proyecto brinde claridad y valor a nuestros clientes, mejorando la toma de decisiones y las experiencias de sus usuarios en el mercado del turismo norteamericano.



Entendimiento de la Situación Actual del Sector

En la actualidad la opinión de los usuarios se ha convertido en un insumo importante para la toma de decisiones en las organizaciones. Sin importar el tamaño de las mismas, la experiencia que proporciona un producto y/o servicio se ha venido transformando con el paso del tiempo y el uso de las tecnologías, pues estas permiten el estar más interconectados, indistintamente del lugar en el que nos encontremos.

“El 52% de los usuarios a nivel global creen que las empresas deben tomar acciones para mejorar a partir del feedback de sus clientes”, según Microsoft. Las empresas son conscientes de lo anterior y del nivel de afectación que conlleva la facilidad con la que hoy día los usuarios comunican sus experiencias y como esto influye en las decisiones de posibles clientes, permitiendo el reaccionar, transformarse, anticiparse a diversas acciones del usuario, incluso fidelizar al mismo.

Por tanto, existen plataformas en la web que permiten recopilar esta información, como Yelp, que es una plataforma de reseñas de todo tipo de negocios, restaurantes, hoteles, servicios entre otros. Los usuarios utilizan el servicio y luego suben su reseña según la experiencia que han recibido; asimismo, Google posee una plataforma de reseñas de todo tipo de negocios, restaurantes, hoteles, servicios, entre otros integrada en su servicio de localización y mapas, Google Maps.

Sin embargo, toda esta información no es de utilidad sin el procesamiento y manejo adecuado, por ello, gracias al avance de la ciencia enfocada en el análisis de datos, se pueden usar herramientas que permiten identificar el estado actual, tendencias, pronósticos y supuestos en diversos escenarios, para finalmente tomar las decisiones pertinentes que permitan aumentar la satisfacción del cliente, posicionar la marca y utilidad de la organización.



Objetivos y Alcance

♦ Objetivo General

Proporcionar al cliente un análisis detallado de la opinión de sus usuarios en distintas plataformas con el fin de planificar nuevas estrategias.

♦ Objetivos Específicos

  • Recopilar, depurar y disponibilizar la información en un Data Warehouse (proceso de ETL) de forma estática y dinámica.
  • Analizar el conjunto de datos cargados en el Data Warehouse y resumir sus principales características (proceso del EDA).
  • Entrenar y poner en producción un modelo de Machine Learning que permita predecir cuáles son los rubros del negocio que más crecerán o decaerán y dónde es conveniente emplazar nuevos locales del negocio.
  • Generar a través de Machine Learning un sistema de recomendación del negocio para los usuarios con el propósito de que estos puedan conocer nuevas temáticas basados en sus experiencias previas.

♦ Alcance

  • Se seleccionarán otras plataformas de información, además de Yelp y Google Maps, que contengan información pertinente y permitan complementar el proceso de ETL y EDA.
  • Se usarán diversas herramientas tecnológicas, como Micfrosoft Fabric, para llevar a cabo el proceso de ETL y EDA.
  • Se facilitará un informe y dashboard al cliente con los procesos de ETL, EDA, predicción del comportamiento de los rubros y sistema de recomendación del negocio a través de una API o aplicación.


Key Performance Indicators - KPI's

  • Índice de satisfacción: La opinión inmediata de los clientes tras finalizar la interacción con la empresa es una buena forma de conocer su percepción sobre el servicio brindado .

  • NPS(net promoter score) Puntuación Neta del Promotor: evalúa el grado en que un cliente recomienda un cierto rubro (si un cliente aprecia un servicio lo suficiente como para recomendarla a otros) % Detractores - % Promotores = NPS

  • Índice de Penetración del Mercado (MPI): la penetración del mercado se centra en reforzar la relación e interacción de los clientes con el servicio a fin de aumentar el compromiso o engagement de las personas con el servicio prestado. % MPI = Clientes que accedieron al servicio / tamaño total de mercado para este servicio

  • ROI(retorno de la inversion): es un indicador que permite saber cuánto dinero la empresa perdió o ganó con las inversiones hechas (en anuncios pagados, nuevas herramientas, entrenamientos, etc) ROI =(GANANCIA -INVERSION)/INVERSION por cada peso invertido en esta campaña, el negocio obtuvo N de vuelta.

  • El Coste de Adquisición del Cliente o CAC: cuánto dinero has utilizado para capturar a nuevos clientes .CAC = (Marketing + Ventas) / Clientes Adquiridos ,

  • Tarifa Diaria Promedio (ADR): Esta métrica muestra el **ingreso promedio (de todas las habitaciones) ** durante un período de tiempo y lo divide por la cantidad de habitaciones vendidas . ADR =Ingresos obtenidos a través de habitaciones / Número de habitaciones vendidas

  • Índice de Tasa Promedio (ARI): esta métrica también se utiliza para comparar las tarifas diarias promedio de su empresa con otros. Simplemente tome la tarifa diaria promedio y divídala por el ADR de sus competidores antes de multiplicarla por 100. ARI = (su tarifa diaria promedio / tarifa diaria promedio de la competencia) * 100

  • Ratio de Ingresos Directos (DRR): DRR muestra el porcentaje de ingresos en línea de fuentes directas (su sitio web) frente a canales de terceros (Booking.com,otros, etc.).

  • Crecimiento de la organizacion o empresa en un periodo determinado:

    • Evaluar el desempeño de cada estrategia tomada.
    • Comparar indices de satisfaccion por depedencia o sucursal, por grupo de edad.
    • Mediciones de Índice de quejas o inconveniencias de los clientes.

Stack Tecnológico - Pipeline

Son diversas herramientas las cuales nos van a ayudar a cumplir nuestros objetivos a nivel Técnico y Profesional, a continuación se detallan de la mejor forma:

Microsoft Fabric: Es un todo en uno de data, se integran todas las herramientas para ETL, EDA y DA. Se propuso esta herramienta con el fin de adelantarnos a la tendencia, ya que se encuentra en fase Beta y pronto saldrá la versión Oficial, viniendo de Microsoft y la inversión que ha realizado los ultimos años en herramientas de data posicionandose en segundo lugar, tendremos la mejor experiencia en un entorno muy Profesional y nos ayudará para futuros proyectos en diferentes empresas.

NoteBooks: Trabajaremos con esta herramienta conectada a Python, SQL y Apache Spark Data Factory: Esta herramienta nos ayuda a tener un flujo de datos entre areas y automatización de tareas, tambien es muy importante para la ingesta de datos en el Data WareHouse.

Apache Spark: Hadoop y Spark nos ayuda para el procesamiento de grandes cantidades de datos en forma de nodos, paralelizando el trabajo y siendo más eficiente de acuerdo su configuración y el tipo de archivo que se use, lo podremos gestionar con Python o con SQL.

Scikit Learn: Lo usaremos para crear nuestros modelos de ML, también con una herramienta "Experiment" la cual realizamos un seguimiento del desarrollo a los modelos de ML y validar las hipotesis.

Power Bi: Aprovecharemos esta herramienta para realizar, el analisis y la vizualización de datos creando un Dashboard muy profesional y en la web.

MatPlotlib: Es indispensable para crear el mejor informe EDA para que nuestros clientes puedan acceder a él de la forma más legible e intuitivo, será necesario traer nuestros modelos de ML allí y exponerlos.

Kusto (KQL): Muy posiblemente usaremos streaming de datos, no es algo seguro pero lo proponemos desde el inicio.

Microsoft Azure: Usaremos la nube de Microsoft para apoyarnos respecto a Bases de datos de SQL Server de ser necesarias, también para realizar el deploy de la aplicación para nuestros clientes a través de Fast API, usando Docker.

♦ Pipeline

El diagrama de Pipeline se encuentra a continuación:

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%