PYSPARK: Utilizando SPARK e Python para analisar dados

Trabalhando com SPARK e Python para resolver todos os seus problemas com dados

Ratings: 4.37 / 5.00




Description

Seja muito bem-vindo(a) ao nosso treinamento, ele foi pensado para quem deseja trabalhar com um ferramental extremamente moderno e atual que é utilizado em todas as empresas do mundo, que mescla infraestrutura e software em prol da análise de dados.

Vamos entender que o PySpark é uma API Python para Apache SPARK que é denominado como o mecanismo de processamento analítico para aplicações de processamento de dados distribuídos em larga escala e aprendizado de máquina, ou seja, para grandes volumes de dados.

O uso da biblioteca Pyspark possui diversas vantagens:

• É um mecanismo de processamento distribuído, na memória, que permite o processamento de dados de forma eficiente e de características distribuída.

• Com o uso do PySpark, é possível o processamento de dados em Hadoop (HDFS), AWS S3 e outros sistemas de arquivos.

• Possui bibliotecas de aprendizado de máquina e gráficos.

• Geralmente as aplicações criadas e executadas no PySpark são 100x mais rápidas que outras em sistemas de dados conhecidos.

Toda a execução dos scripts é realizada dentro do Apache Spark, que distribui o processamento dentro de um ambiente de cluster que são interligados aos NÓS que realizam a execução e transformação dos dados.

Vamos trabalhar com os seguintes módulos do PySpark:

PySpark RDD

• PySpark DataFrame and SQL

• PySpark Streaming


Venha conhecer esta tecnologia que está com uma grande demanda em todas as organizações no mundo.

What You Will Learn!

  • O que é PYSPARK
  • O que é SPARK
  • Instalando o SPARK em um ambiente Windows, configurando
  • Instalando o ANACONDA
  • Instalando a JDK
  • Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
  • Entendendo o conceito de NÓ, CLUSTER
  • Conhecendo os módulos e pacotes do PYSPARK
  • O que é SparkContext
  • Entendo o que é RDD (Resilient Distributed Dataset)
  • Trabalhando com Spark Dataframe
  • Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
  • Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
  • Aprendendo o que é uma função Lambda
  • Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
  • Monitoramento de jobs com SPARK UI
  • O que é SparkSession
  • Leitura de arquivos externos
  • SPARK SQL
  • Leitura de dados em JSON

Who Should Attend!

  • Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
  • Profissionais que já trabalham com Python para aprimorar seu conhecimento em SPARK