Engenharia de Dados com Google Dataflow e Apache Beam na GCP

Dê seus primeiros passos fazendo ETL batch e Streaming com Google Cloud ,Dataflow, PubSub, Big Query e Python

Ratings: 4.77 / 5.00




Description

Este é um curso INTRODUTÓRIO ao mais novo framework de desenvolvimento de pipeline de dados da Apache Foundation: O Apache Beam, e como este recurso está se tornando popular em parceria com o Google Dataflow. Em um resumo, queremos abordar os seguintes tópicos:

1. Entender o seu funcionamento interno

2. Quais são seus benefícions

3. Explicar como usar na sua máquina lócal sem instalação via Google Colab para desenvolvimentos

4. Suas funções principais

5. Configurar a SDK do python Apache Beam localmentevice

6. Como fazer o deploy deste recurso no Google Dataflow para uma pipeline em Batch

7. Como fazer o deploy deste recurso no Google Dataflow para uma pipeline em STREAMING

8. Conceitos e uso do Pub Sub como mecanimos de Mensageria em tempo Real

Este curso é dinâmico, estará sempre que possível recebendo atualizações.

É importante lembrar que este curso não ensina Python, mas utiliza ele. Então, esteja confortável em saber o básico de Python, definir uma função, criar objetos e tipos de dados.

Também, caso tenha interesse em aprender a seção 4, que consiste no deploy de uma pipeline no Google Dataflow, será necessário ter uma contra gratuita na GCP. É um processo simples, mas requer cartão de crédito!

___________________________________________________________________________________________________________

Requisitos:

· Conhecimento básico de Python

· Ter Python 3.7 ou maior instalado localmente ( a partir da seção 4 )

· Conta Gratuita no GCP ( a partir da seção 4 )

Agenda:

· Seção 2 – Conceitos

· Seção 3 – Principais Funções

· Seção 4 – Apache Beam no Google Dataflow

· Seção 5 – Streaming no  Google Dataflow com Pub Sub



What You Will Learn!

  • Processar mensagens com Python e Apache Beam
  • Armazenar e consumir dados do Data Lake Google Storage
  • Configurar e agendar jobs no Google Dataflow
  • Salvar dados no Google Big Query
  • Criar Pipelines de Dados
  • ETL
  • Usar Gooble Pub Sub para pipelines de dados em tempo real
  • Streaming
  • Big Query
  • Python
  • Apache Beam
  • Google Cloud

Who Should Attend!

  • Profissionais de Dados
  • Analistas de Dados
  • Desenvolvedores de BI
  • Engenheiro de Dados
  • Entusiastas de Open Source
  • Cientista de Dados