Pyspark desde cero orientado a machine learning

Pyspark para principiantes

Ratings: 0.00 / 5.00

Description

Este es un curso que esta diseñado para personas que deseen adquirir el conocimiento básico para trabajar con Pyspark en un entorno de maquina virtual usando el sistema operativo Linux-Ubuntu. Aprenderemos a instalar el ambiente de trabajo para Pyspark usando una maquina virtual con Ubuntu y crearemos un archivo de trabajo para jupyter notebook con una secuencia clásica de carga de datos desde un archivo csv, limpieza, creacion sub dataframes y corrida de algoritmos de ML. Trabajaremos con los algoritmos de Regresión lineal, Decision tree regression, Gradient Boosting regresión y neural network usando la librería de Keras. Solamente explicaremos el algoritmo de Gradiente descendiente por su importancia ya que la mayoría de estos algoritmos usan el Gradiente descendiente para obtener el menor loss function. Tambien trabajaremos con los dataFrames de Pandas y de Pyspark para entender sus diferencias. Asimismo, sera importante entender lo poderoso de los RDD que son los que permiten el procesado distribuido para el ambiente de Big Data. El estudiante podrá descargar la maquina virtual y el archivo para jupyter notebook con las tareas ya trabajadas allí, pero esperamos que cada estudiante pueda instalar su propia maquina virtual usando la guía ofrecida con este curso. Yo estaré a su disposición para ayudarles en la creación de la MV.

What You Will Learn!

Crear una maquina virtual desde cero con toda la interface para correr Pyspark
Acerca de los RDD's
Uso de las librerias de ML de Python sobre Pyspark
Diferencias entre los dataFrames de Pandas y Pyspark
Acerca del algoritmo del gradiente descendiente

Who Should Attend!

Estudiantes de computación o personal de informática que necesita inducción sobre Pyspark