Alteryx TRIFACTA e Apache HOP: cargas e tratamento de dados
Construa pipelines de dados e faça tratamento, governança e ajustes nos dados
Description
Este treinamento foi construido como um dos mais práticos e principais da área de preparação de dados. Utilizaremos duas das mais importantes ferramentas de mercado que fazem o trabalho de preparação de dados, governaça de dados e ajustes nos dados, estamos falando Alteryx TRIFACTA e do APACHE HOP.
O Alteryx TRIFACTA, é uma ferramenta 100% na nuvem, low-code, totalmente prática e com grande destaque no mercado. Ela é uma plataforma em nuvem aberta e interativa, que permite a capacitação de engenheiros de dados e analistas a interpretar, preparar e criar pipelines de dados para acelerar suas análises.
As principais características do Alteryx TRIFACTA são:
Explore e avalie o conteúdo e a qualidade de qualquer conjunto de dados.
Acelere e acompanhe transformações de dados de forma visual.
Construa, implante e automatize pipelines de dados.
Utilize os fluxos de dados para definir TODAS as suas necessidades em tratamento de dados e governança de dados
O APACHE HOP é a abreviação de Hop Orchestration Platform, é uma plataforma de orquestração de dados e engenharia de dados que visa facilitar todos os aspectos da orquestração de dados e metadados, por padrão o HOP vem com cerca de 400 plugins ou componentes.
São criados fluxos de trabalho (Workflow) e pipelines em um ambiente de desenvolvimento visual chamado Hop Gui.
Com o APACHE HOP é possível combinar, enriquecer, limpar e de muitas outras maneiras manipular dados.
A ideia é que você faça a leitura de dados, realize os ajustes e tratamentos no conteúdo (limpeza de inconsistências, criação de campos, composição de campos, dentre outros).
Para você que pretende ou trabalha com engenharia de dados é a ferramenta perfeita.
O curso cobre todo o ciclo desde o START da construção do pipeline ou workflow até a automatização deste.
Então venha para o nosso treinamento e promova a exploração sobre seus dados com alta performance.
What You Will Learn!
- Preparação de dados aberta que pode se conectar a diversas fontes de dados
- Integração em todas as principais plataformas de dados em nuvem
- Decida entre ETL ou ELT, ou uma combinação ideal dos dois com base no desempenho
- Suporte para todas as principais nuvens, Google, AWS, Azure e on-premise
- Interface intuitiva e simples utilização de objetos de dados
- Perfilização de dados, ajudando na identificação de outliers
- Tratamento de dados, criação de novos campos, dentre outras tarefas
- Eliminação de dados nulos, inconsistências, criação de novos campos
- Exploração e avaliação de conteúdo e de qualidade de qualquer conjunto de dados
- Engenharia de dados com low-code, visual, direto na nuvem
- Construção, implantação e automatização de pipelines de dados
- Criação de flow de dados, que permite ao analista encadear suas ações de tratamento
- Action com os dados: Columns, Rename, Sort, Calculate, Group By, Filter Rows, Replace
- Action com os dados: Split, Create formula, dentre outros
- Exportação dos resultados automatizados
- O que é Hop Orchestration Platform
- Entendendo sobre fluxos de trabalho e pipelines
- Entendendo sobre projetos e ambientes
- Instalação do APACHE HOP
- Criando pipelines com arquivos texto
- Realizando tratamento de dados para entendimento do processo de engenharia de dados
- O que são transformações, links e ações dentro de um pipeline
- Construindo um workflow, orquestrador da sequência das operações
- Entendendo o HOP GUI e seus componentes
- Entendendo menu barras, principal e perspectivas
- Criando sua área de projetos
- Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
- Entendendo o que é : View output, Preview output , Debug output
- Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
- Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
- Construindo Workflow com execução de pipelines
- Entendo o uso de variáveis globais no APACHE HOP
- Automatização de pipeline ou workflow pelo HOP-RUN
- Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
- Instalação de banco de dados Postgresql, usando PGAdmin
Who Should Attend!
- Profissionais de TI
- Profissionais que querem trabalham na área de Engenharia de dados, Análise de dados, Ciência de Dados, Business Intelligence
- Pessoas interessadas em aprender os conceitos sobre ferramentas de ingestão de dados, ou que gostariam adentrar na área de engenharia de dados
- Profissionais que, de alguma forma, utilizam dados no seu dia a dia