Alteryx TRIFACTA e Apache HOP: cargas e tratamento de dados

Construa pipelines de dados e faça tratamento, governança e ajustes nos dados

Ratings: 4.95 / 5.00

Description

Este treinamento foi construido como um dos mais práticos e principais da área de preparação de dados. Utilizaremos duas das mais importantes ferramentas de mercado que fazem o trabalho de preparação de dados, governaça de dados e ajustes nos dados, estamos falando Alteryx TRIFACTA e do APACHE HOP.

O Alteryx TRIFACTA, é uma ferramenta 100% na nuvem, low-code, totalmente prática e com grande destaque no mercado. Ela é uma plataforma em nuvem aberta e interativa, que permite a capacitação de engenheiros de dados e analistas a interpretar, preparar e criar pipelines de dados para acelerar suas análises.

As principais características do Alteryx TRIFACTA são:

Explore e avalie o conteúdo e a qualidade de qualquer conjunto de dados.
Acelere e acompanhe transformações de dados de forma visual.
Construa, implante e automatize pipelines de dados.
Utilize os fluxos de dados para definir TODAS as suas necessidades em tratamento de dados e governança de dados

O APACHE HOP é a abreviação de Hop Orchestration Platform, é uma plataforma de orquestração de dados e engenharia de dados que visa facilitar todos os aspectos da orquestração de dados e metadados, por padrão o HOP vem com cerca de 400 plugins ou componentes.

São criados fluxos de trabalho (Workflow) e pipelines em um ambiente de desenvolvimento visual chamado Hop Gui.

Com o APACHE HOP é possível combinar, enriquecer, limpar e de muitas outras maneiras manipular dados.

A ideia é que você faça a leitura de dados, realize os ajustes e tratamentos no conteúdo (limpeza de inconsistências, criação de campos, composição de campos, dentre outros).

Para você que pretende ou trabalha com engenharia de dados é a ferramenta perfeita.

O curso cobre todo o ciclo desde o START da construção do pipeline ou workflow até a automatização deste.

Então venha para o nosso treinamento e promova a exploração sobre seus dados com alta performance.

What You Will Learn!

Preparação de dados aberta que pode se conectar a diversas fontes de dados
Integração em todas as principais plataformas de dados em nuvem
Decida entre ETL ou ELT, ou uma combinação ideal dos dois com base no desempenho
Suporte para todas as principais nuvens, Google, AWS, Azure e on-premise
Interface intuitiva e simples utilização de objetos de dados
Perfilização de dados, ajudando na identificação de outliers
Tratamento de dados, criação de novos campos, dentre outras tarefas
Eliminação de dados nulos, inconsistências, criação de novos campos
Exploração e avaliação de conteúdo e de qualidade de qualquer conjunto de dados
Engenharia de dados com low-code, visual, direto na nuvem
Construção, implantação e automatização de pipelines de dados
Criação de flow de dados, que permite ao analista encadear suas ações de tratamento
Action com os dados: Columns, Rename, Sort, Calculate, Group By, Filter Rows, Replace
Action com os dados: Split, Create formula, dentre outros
Exportação dos resultados automatizados
O que é Hop Orchestration Platform
Entendendo sobre fluxos de trabalho e pipelines
Entendendo sobre projetos e ambientes
Instalação do APACHE HOP
Criando pipelines com arquivos texto
Realizando tratamento de dados para entendimento do processo de engenharia de dados
O que são transformações, links e ações dentro de um pipeline
Construindo um workflow, orquestrador da sequência das operações
Entendendo o HOP GUI e seus componentes
Entendendo menu barras, principal e perspectivas
Criando sua área de projetos
Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
Entendendo o que é : View output, Preview output , Debug output
Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
Construindo Workflow com execução de pipelines
Entendo o uso de variáveis globais no APACHE HOP
Automatização de pipeline ou workflow pelo HOP-RUN
Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
Instalação de banco de dados Postgresql, usando PGAdmin

Who Should Attend!

Profissionais de TI
Profissionais que querem trabalham na área de Engenharia de dados, Análise de dados, Ciência de Dados, Business Intelligence
Pessoas interessadas em aprender os conceitos sobre ferramentas de ingestão de dados, ou que gostariam adentrar na área de engenharia de dados
Profissionais que, de alguma forma, utilizam dados no seu dia a dia