Page 64 - newDATAmagazine | 03>07>2021
P. 64

Disponibilização                                   assegurado  por  recursos  com  valências  em

            Chegados à última fase (Load), o processo          todas  estas  áreas  (costumo  chamar-lhes
         consiste, essencialmente, em migrar o nosso           carinhosamente data gymnasts).
         unified data model para o seu destino final, que,          Análise
         normalmente, se apelida de data warehouse.               Voltando, estamos então preparados para
            Uma pergunta que recebo frequentemente             iniciar  a  nossa  análise,  retirar  conclusões  e
         é: “para quê o data warehouse, se já temos os         t o m a r   d e c i s õ e s   b a s e a d a s   n e s s e
         dados  no  data  lake?”.  São  várias  as  razões:    conhecimento  ou  até  mesmo  descobrir
         separar claramente o que é raw data (dados            relações nunca equacionadas (data discovery).
         não tratados) de dados limpos e consolidados;            Dependendo do objetivo, podemos utilizar
         prevenir  que  um  analista  elimine  dados           todo  o  warehouse  na  nossa  análise,  ou
         acidentalmente; ou, talvez a mais importante,         p o d e m o s   s e c c i o n á - l o   n a q u i l o   q u e
         porque o objectivo final é que todo o processo         normalmente se apelida de data marts, fatias
         de ETL seja totalmente automatizado, desde a          do  repositório  global  de  dados  que  contêm
         extração  até  ao  warehouse.  Esta  ambiciosa        apenas  os  necessários  para  determinada
         operação,  a  que  costuma  dar-se  o  nome  de       análise.
         data orchestration, consiste na construção de            “Analisar”  pode  ter  muitas  variantes:  da
         motores  de  data  processing  que  irão  ser         mais  simples  agregação  de  dados  para
         responsáveis por cada uma das fases do ETL e          criação  de  reportes  gráficos  (business
         que  correm,  consecutivamente,  de  forma            analytics),  até  análises  preditivas  como
         automática  e  ininterrupta,  alimentando  o          forecasts  (predictive  analytics),  utilizando  ou
         warehouse com as atualizações existentes, se          não modelos estatísticos treinados (machine
         necessário praticamente em tempo real.                learning),  tudo  é  possível.  Nestas  variantes

            Uma  pausa  na  nossa  história  para  aqui        poderão  surgir  termos  como  data  munging
         referir  que,  até  este  ponto,  o  trabalho  é      (também conhecido como data wrangling), que
         normalmente  desempenhado  por  data                  consiste em transformar ou mapear dados de
         engineers, passando daqui para a frente para          um  formato  para  outro,  ou  data  mining
         as  mãos  de  data  analysts  ou  data  scientists.   (também  conhecido  como  KDD  -  knowledge
         Mas é bastante comum, em organizações com             discovery in data), que consiste em descobrir
         menor  dimensão,  que  o  trabalho  seja              padrões nos dados ou detetar anomalias.


     64 newDATAmagazine.com
   59   60   61   62   63   64   65   66   67   68   69