Page 64 - newDATAmagazine | 03>07>2021
P. 64
Disponibilização assegurado por recursos com valências em
Chegados à última fase (Load), o processo todas estas áreas (costumo chamar-lhes
consiste, essencialmente, em migrar o nosso carinhosamente data gymnasts).
unified data model para o seu destino final, que, Análise
normalmente, se apelida de data warehouse. Voltando, estamos então preparados para
Uma pergunta que recebo frequentemente iniciar a nossa análise, retirar conclusões e
é: “para quê o data warehouse, se já temos os t o m a r d e c i s õ e s b a s e a d a s n e s s e
dados no data lake?”. São várias as razões: conhecimento ou até mesmo descobrir
separar claramente o que é raw data (dados relações nunca equacionadas (data discovery).
não tratados) de dados limpos e consolidados; Dependendo do objetivo, podemos utilizar
prevenir que um analista elimine dados todo o warehouse na nossa análise, ou
acidentalmente; ou, talvez a mais importante, p o d e m o s s e c c i o n á - l o n a q u i l o q u e
porque o objectivo final é que todo o processo normalmente se apelida de data marts, fatias
de ETL seja totalmente automatizado, desde a do repositório global de dados que contêm
extração até ao warehouse. Esta ambiciosa apenas os necessários para determinada
operação, a que costuma dar-se o nome de análise.
data orchestration, consiste na construção de “Analisar” pode ter muitas variantes: da
motores de data processing que irão ser mais simples agregação de dados para
responsáveis por cada uma das fases do ETL e criação de reportes gráficos (business
que correm, consecutivamente, de forma analytics), até análises preditivas como
automática e ininterrupta, alimentando o forecasts (predictive analytics), utilizando ou
warehouse com as atualizações existentes, se não modelos estatísticos treinados (machine
necessário praticamente em tempo real. learning), tudo é possível. Nestas variantes
Uma pausa na nossa história para aqui poderão surgir termos como data munging
referir que, até este ponto, o trabalho é (também conhecido como data wrangling), que
normalmente desempenhado por data consiste em transformar ou mapear dados de
engineers, passando daqui para a frente para um formato para outro, ou data mining
as mãos de data analysts ou data scientists. (também conhecido como KDD - knowledge
Mas é bastante comum, em organizações com discovery in data), que consiste em descobrir
menor dimensão, que o trabalho seja padrões nos dados ou detetar anomalias.
64 newDATAmagazine.com

