MINHA VIDA TECH

PDI – Pentaho Data Integration

pentaho-data-integration-minha-vaga-tech

Uma das ferramentas mais utilizadas para ETL, integração de dados entre outros recursos destinados a área. Vamos conhecer um pouco mais sobre o Pentaho?

O que é o Pentaho Data Integration ?
É um Software open source para inteligência de negócios (BI) baseado em Java, com foco em ETL (Extract, Transform, Load), mineração de dados e cubos OLAP (On-line Analytical Processing). Sua primeira versão foi lançada em 2004, onde no decorrer dos anos foi premiada como uma das melhores aplicações para inteligência empresarial. Existe também outras ferramentas da Pentaho Corporation, por exemplo: Pentaho Analysis Services, Pentaho Reporting, Pentaho Dashboard.

Como funciona:
Basicamente o PDI funciona com Steps, onde cada um tem suas propriedades e características para exercer determinada função. Os Steps são ligados por Hops – conectores, onde é seguido um fluxo para que seja executada uma determinada atividade. No simples exemplo abaixo, temos uma conexão a um banco de dados onde é executado um script SQL, inserido o resultado em um arquivo de texto .csv e enviado para um FTP (File Transfer Protocol), caso houver falha em algum Step, é enviado um e-mail para o analista responsável.

Step 01 – leitura ao Banco de Dados e insere em um arquivo csv;

Step 02 – captura o arquivo csv do Step anterior e envia para um FTP;

Step 03 – Job completo chamando as transformações anteriores, em caso de falha é realizado envio de alerta via e-mail.

Após todo o fluxo definido, para automatização do processo é possível agendar a execução dos Jobs através de uma Cron ou agendador de tarefas, dependendo do Sistema Operacional utilizado, sem necessidade da ferramenta está aberta.

Obs.: O tratamento dos dados pode ser realizado tanto no Script SQL como também utilizando os Steps do próprio Pentaho – remover espaços, replaces, concatenar, ordenar, agrupar, joins, case, entre outros. Se necessário, também é possível executar linguagens de programação, por exemplo: JavaScript.

Principais funções:

  • Extração, transformação e carregamento de dados – ETL: É possível se conectar a praticamente todos os SGBD’s utilizados no mercado, API’s, WebServices, FTP, leitura de arquivos em local, entre outras inúmeras opções.
  • Organização – Data Warehouse: Da mesma maneira que é possível ler dados de diversas fontes, também pode-se popular os dados tratados para mais de um destino.
  • Análise dimensional – Cubos OLAP: Todo tratamento pode ser realizado dentro do PDI para evitar utilização de recursos na camada de visualização, logo o dado é entregue para ferramenta de BI conforme escopo definido.
  • Monitoramento das informações: É possível utilizar recursos do PDI como, relatórios, gráficos e dashboards. Uma característica altamente recomendada e muito utilizada em desenvolvimento, o versionamento das transformações ou de qualquer alteração no processo, com possibilidade de Rollback.


Quer aprender mais?

Estou preparando um E-book para ajudar você a entrar no mercado de tecnologia.

Desvende as áreas de atuação, aprenda técnicas e comportamentos para se destacar em entrevistas e processos seletivos. Descubra hábitos e rotinas que aceleram sua aprendizagem.

Prepare-se para o sucesso no universo da tecnologia. Clique no link abaixo e entre para a lista de espera, pois será limitado!

Quero minha primeira oportunidade


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *