En un mundo donde las aplicaciones móviles y el internet de las cosas han revolucionado la forma como generamos y compartimos información, vemos como cada vez es mas importante disponer de herramientas que nos permitan gestionar grandes cantidades de información que se generan cada vez mas rápido. Si logramos analizar dicha información, podemos tener una ventaja competitiva frente a nuestra competencia que nos permita liderar nuestro mercado. En ese contexto se enmarca el curso de DataStreaming y servicios en la nube, como una alternativa para analizar datos en tiempo real que nos permitan tomar la decisión correcta en el momento correcto. También se abordan temas relacionados con la computación en la nube como una alternativa para almacenar y procesar datos de forma económica y pagando solo por los servicios utilizados, sin necesidad de hacer grandes inversiones en equipos que en un par de años podrían quedar obsoletos.
En las sesiones de DataStreaming aprenderemos sobre la serialización de los datos y los distintos formatos utilizados usualmente como lo son:
- Json
- Xml
- Yaml Entraremos también a revisar otras alternativas como Protobuf y Apache Thrift. Entendiendo estos conceptos, vamos a revisar la forma como podemos procesar datos en Batch, en Streamin y en micro-batch.
En las sesiones de Computación en la nube, revisaremos dos herramientas ampliamente utilizados hoy en día como lo son Databricks y AWS.
En Databricks trabajeremos cluster de Spark en los siguientes lenguajes
- SQL
- Python
- R
- Scala
En AWS vamos a conocer y operar los siguientes servicios
- IAM
- VPC
- EC2
- Cloud9
- S3
- EMR
Las entregas del curso (informes, notebooks, etc.) se realizarán por correo electrónico. Los talleres se realizan en equipos de trabajo durante las sesiones marcadas como [TALLER], en cada sesión de taller se definirán las fechas de entrega.