Pyspark e Nifi: analisando e criando projetos de dados
Analisando dados com duas grandes ferramentas de mercado
Description
Estamos diante de um dos treinamentos com mais abrangência que há no mercado, o uso de ferramentas de ingestão de dados pelo uso do NiFi e a utilização da linguagem mais utilizando pelos analistas de dados, cientistas de dados e profissionais de dados em geral que é o uso do Python dentro do SPARK.
Iniciaremos o curso aprendendo sobre o mundo SPARK e suas funcionalidades, você entenderá de uma vez por todas como funciona um cluster, um nó e todo o ecossistema de instalação, fazendo do zero para que você compreenda como funciona cada etapa do python dentro do SPARK. Utilizaremos o Anaconda para criação de nossos noteboooks e faremos passo a passo com todos os scripts disponíveis para seu download.
Já no NiFi aprenderemos como criar fluxo de dados para diversos assuntos no tratamento, cópia, geração, gravação de dados por meio do uso dos processadores em java. O NiFi é da plataforma APACHE e é amplamente utilizado em empresas que trabalham com engenharia de dados pelo mundo. Com o NiFi você terá a liberdade de criar seus fluxos de dados de forma visual, isso mesmo, tudo é feita na web, criaremos o servidor NiFi e executaremos os scripts, passo a passo.
Então venha conhecer este treinamento com duas das ferramentas mais utilizadas do mercado.
What You Will Learn!
- O que é PYSPARK
- O que é SPARK
- Instalando o SPARK em um ambiente Windows, configurando
- Instalando o ANACONDA
- Instalando a JDK
- Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
- Entendendo o conceito de NÓ, CLUSTER
- Conhecendo os módulos e pacotes do PYSPARK
- O que é SparkContext
- Entendo o que é RDD (Resilient Distributed Dataset)
- Trabalhando com Spark Dataframe
- Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
- Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
- Aprendendo o que é uma função Lambda
- Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
- Monitoramento de jobs com SPARK UI
- O que é SparkSession
- Leitura de arquivos externos
- SPARK SQL
- Leitura de dados em JSON
- Entendo sobre Apache Nifi, uma plataforma de ingestão de dados
- Entendo sobre o gerenciamento e a automatização do fluxo de dados
- Entendendo sobre coleta de dados, transmissão de dados, armazenamento de dados
- Ecossistema NiFi: Repositórios, controle de fluxo, máquina JVM, extensões
- O que é Flow File
- O que é um Processor
- O que é um Fluxo de Dados
- O que é uma conexão
- O que é um grupo de processor
- Aprendendo sobre a barra de componentes
- Aprendendo sobre a barra de controle navegação
- Aprendendo sobre a barra de operação
- Desenvolvimento de diversos fluxos de dados
- Extensões: Putfile, Getfile, ExtractText, SplitText
- Extensões: EvaluateXpath, UpdateAttribute, GenerateFlowFile
- Extensões: RouteOnAttribute, SplitXML, LogMessage, LogAttibute
- Extensões: MergeContent, ReplaceText, CompressContent
- Uso de Input Port, Funil e Process Group
Who Should Attend!
- Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
- Profissionais que já trabalham com Python para aprimorar seu conhecimento em SPARK
- Pessoas interessadas em aprender os conceitos sobre NiFi, ou que gostariam adentrar na área de engenharia de dados
- Profissionais que, de alguma forma, utilizam dados no seu dia a dia