Big Data y Spark: ingeniería de datos con Python y pyspark
Trabajo desde niveles básicos hasta avanzados con RDD y DataFrame.
Description
Bienvenidos al curso Big Data y Spark: ingeniería de datos con Python y pyspark.
En este curso aprenderás a trabajar con Spark a través de la librería PySpark de Python en Google Colaboratory.
Spark es esencialmente un sistema distribuido que fue diseñado para procesar un gran volumen de datos de manera eficiente y rápida. El objetivo de este curso es aprender a trabajar con las principales abstracciones de Spark, las cuales son los RDDs y los DataFrames.
El material que proponemos en el curso está pensado para todas las personas que bien deseen iniciarse en el trabajo con Spark, o que por otro lado, deseen consolidar los conocimientos que ya poseen sobre los temas que se abordarán. El curso está diseñado de una forma progresiva y gradual que le permitirá al estudiante entender y desarrollar las principales habilidades para el trabajo con RDDs y DataFrames en Spark. Además, se abordarán temas avanzados que le permitirán optimizar las aplicaciones de Spark que pueda construir en un futuro, o bien, mejorar aquellas que ya se tengan implementadas.
Empezamos el curso con una breve introducción al Big Data y a Spark. Posteriormente continuamos con una sección en donde los guiaremos para que instalen y configuren Spark en Google Colaboratory. Una vez hayan concluido esta sección, estarán en condiciones de ejecutar notebooks en Colaboratory utilizando Spark. Las siguientes secciones del curso están pensadas para entender y aplicar en la práctica las principales cuestiones sobre los RDDs y los DataFrames.
El temario procura en todo momento analizar temas específicos por cada lección, permitiéndole así al estudiante localizar rápidamente cualquier contenido de una forma rápida. La mayoría de las lecciones están conformadas por una parte teórica y otra práctica.
Mi nombre es José Miguel Moya y me desempeño actualmente como Ingeniero de Datos Senior. Como parte de mi trabajo diario utilizo Spark con Python y Scala para obtener y procesar enormes cantidades de datos.
Te invito a que veas el video de presentación del curso y las lecciones gratuitas.
Te espero en el curso, tenga usted un cordial saludo.
What You Will Learn!
- Conocer el funcionamiento y la estructura de Apache Spark
- Trabajar con RDDs de Spark desde niveles básicos hasta avanzados
- Trabajar con DataFrames en Spark mediante el API de SQL desde niveles básicos hasta avanzados
- Optimizar sus aplicaciones de Apache Spark para el manejo de grandes volúmenes de datos a través de DataFrames
Who Should Attend!
- Este curso va dirigido a todas aquellas personas que estén interesadas en introducirse al mundo del Big Data y al procesamiento de datos a través de Apache Spark. Es una muy buena oportunidad para aquellos que desean consolidar y ampliar sus conocimientos en el trabajo con RDDs y DataFrames en Spark debido a cómo se explican los conceptos y a las actividades prácticas presentadas.