Alteryx TRIFACTA e Apache HOP: cargas e tratamento de dados

Construa pipelines de dados e faça tratamento, governança e ajustes nos dados

Ratings: 4.95 / 5.00




Description

Este treinamento foi construido como um dos mais práticos e principais da área de preparação de dados. Utilizaremos duas das mais importantes ferramentas de mercado que fazem o trabalho de preparação de dados, governaça de dados e ajustes nos dados, estamos falando Alteryx TRIFACTA e do APACHE HOP.

O Alteryx TRIFACTA, é uma ferramenta 100% na nuvem, low-code, totalmente prática e com grande destaque no mercado. Ela é uma plataforma em nuvem aberta e interativa, que permite a capacitação de engenheiros de dados e analistas a interpretar, preparar e criar pipelines de dados para acelerar suas análises.


As principais características do Alteryx TRIFACTA são:

  • Explore e avalie o conteúdo e a qualidade de qualquer conjunto de dados.

  • Acelere e acompanhe transformações de dados de forma visual.

  • Construa, implante e automatize pipelines de dados.

  • Utilize os fluxos de dados para definir TODAS as suas necessidades em tratamento de dados e governança de dados


O APACHE HOP é a abreviação de Hop Orchestration Platform, é uma plataforma de orquestração de dados e engenharia de dados que visa facilitar todos os aspectos da orquestração de dados e metadados, por padrão o HOP vem com cerca de 400 plugins ou componentes.

São criados fluxos de trabalho (Workflow) e pipelines em um ambiente de desenvolvimento visual chamado Hop Gui.

Com o APACHE HOP é possível combinar, enriquecer, limpar e de muitas outras maneiras manipular dados.

A ideia é que você faça a leitura de dados, realize os ajustes e tratamentos no conteúdo (limpeza de inconsistências, criação de campos, composição de campos, dentre outros).

Para você que pretende ou trabalha com engenharia de dados é a ferramenta perfeita.

O curso cobre todo o ciclo desde o START da construção do pipeline ou workflow até a automatização deste.


Então venha para o nosso treinamento e promova a exploração sobre seus dados com alta performance.

What You Will Learn!

  • Preparação de dados aberta que pode se conectar a diversas fontes de dados
  • Integração em todas as principais plataformas de dados em nuvem
  • Decida entre ETL ou ELT, ou uma combinação ideal dos dois com base no desempenho
  • Suporte para todas as principais nuvens, Google, AWS, Azure e on-premise
  • Interface intuitiva e simples utilização de objetos de dados
  • Perfilização de dados, ajudando na identificação de outliers
  • Tratamento de dados, criação de novos campos, dentre outras tarefas
  • Eliminação de dados nulos, inconsistências, criação de novos campos
  • Exploração e avaliação de conteúdo e de qualidade de qualquer conjunto de dados
  • Engenharia de dados com low-code, visual, direto na nuvem
  • Construção, implantação e automatização de pipelines de dados
  • Criação de flow de dados, que permite ao analista encadear suas ações de tratamento
  • Action com os dados: Columns, Rename, Sort, Calculate, Group By, Filter Rows, Replace
  • Action com os dados: Split, Create formula, dentre outros
  • Exportação dos resultados automatizados
  • O que é  Hop Orchestration Platform
  • Entendendo sobre fluxos de trabalho e pipelines
  • Entendendo sobre projetos e ambientes
  • Instalação do APACHE HOP
  • Criando pipelines com arquivos texto
  • Realizando tratamento de dados para entendimento do processo de engenharia de dados
  • O que são transformações, links e ações dentro de um pipeline
  • Construindo um workflow, orquestrador da sequência das operações
  • Entendendo o HOP GUI e seus componentes
  • Entendendo menu barras, principal e perspectivas
  • Criando sua área de projetos
  • Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
  • Entendendo o que é : View output, Preview output , Debug output
  • Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
  • Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
  • Construindo Workflow com execução de pipelines
  • Entendo o uso de variáveis globais no APACHE HOP
  • Automatização de pipeline ou workflow pelo HOP-RUN
  • Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
  • Instalação de banco de dados Postgresql, usando PGAdmin

Who Should Attend!

  • Profissionais de TI
  • Profissionais que querem trabalham na área de Engenharia de dados, Análise de dados, Ciência de Dados, Business Intelligence
  • Pessoas interessadas em aprender os conceitos sobre ferramentas de ingestão de dados, ou que gostariam adentrar na área de engenharia de dados
  • Profissionais que, de alguma forma, utilizam dados no seu dia a dia