Engenharia de Dados com Google Dataflow e Apache Beam na GCP
Dê seus primeiros passos fazendo ETL batch e Streaming com Google Cloud ,Dataflow, PubSub, Big Query e Python
Description
Este é um curso INTRODUTÓRIO ao mais novo framework de desenvolvimento de pipeline de dados da Apache Foundation: O Apache Beam, e como este recurso está se tornando popular em parceria com o Google Dataflow. Em um resumo, queremos abordar os seguintes tópicos:
1. Entender o seu funcionamento interno
2. Quais são seus benefícions
3. Explicar como usar na sua máquina lócal sem instalação via Google Colab para desenvolvimentos
4. Suas funções principais
5. Configurar a SDK do python Apache Beam localmentevice
6. Como fazer o deploy deste recurso no Google Dataflow para uma pipeline em Batch
7. Como fazer o deploy deste recurso no Google Dataflow para uma pipeline em STREAMING
8. Conceitos e uso do Pub Sub como mecanimos de Mensageria em tempo Real
Este curso é dinâmico, estará sempre que possível recebendo atualizações.
É importante lembrar que este curso não ensina Python, mas utiliza ele. Então, esteja confortável em saber o básico de Python, definir uma função, criar objetos e tipos de dados.
Também, caso tenha interesse em aprender a seção 4, que consiste no deploy de uma pipeline no Google Dataflow, será necessário ter uma contra gratuita na GCP. É um processo simples, mas requer cartão de crédito!
___________________________________________________________________________________________________________
Requisitos:
· Conhecimento básico de Python
· Ter Python 3.7 ou maior instalado localmente ( a partir da seção 4 )
· Conta Gratuita no GCP ( a partir da seção 4 )
Agenda:
· Seção 2 – Conceitos
· Seção 3 – Principais Funções
· Seção 4 – Apache Beam no Google Dataflow
· Seção 5 – Streaming no Google Dataflow com Pub Sub
What You Will Learn!
- Processar mensagens com Python e Apache Beam
- Armazenar e consumir dados do Data Lake Google Storage
- Configurar e agendar jobs no Google Dataflow
- Salvar dados no Google Big Query
- Criar Pipelines de Dados
- ETL
- Usar Gooble Pub Sub para pipelines de dados em tempo real
- Streaming
- Big Query
- Python
- Apache Beam
- Google Cloud
Who Should Attend!
- Profissionais de Dados
- Analistas de Dados
- Desenvolvedores de BI
- Engenheiro de Dados
- Entusiastas de Open Source
- Cientista de Dados