ETL Gone Portable: Reduza a dependência do Cloud Provider

Qual a importância da portabilidade? O mundo em que hoje vivemos pauta-se por um desenvolvimento tecnológico veloz, facto que se traduz numa enorme quantidade de tecnologias que nos permitem armazenar, transformar e consultar dados. Dependendo da estratégia interna da sua empresa, poderá decidir manter toda a infraestrutura tecnológica on-premise, tendo sempre em conta os custos de manutenção e operação, ou poderá optar por uma solução mais simples, passando a utilizar serviços cloud e escolhendo, para este efeito, um ou mais fornecedores destes serviços. É precisamente aqui que o problema começa.

Tipicamente, uma das perguntas que recebemos dos nosso clientes é: será que a escolha do fornecedor de serviços cloud interessa? Como bons consultores a resposta tende a ser “depende”. A estrutura de custos é diferente, as interfaces e API’s para desenvolvimento de aplicações são igualmente diferentes e, mais importante ainda, as ferramentas disponíveis e a sua maturidade também variam de fornecedor para fornecedor. Seleccionar um fonecedor de cloud termina, normalmente, num compromisso entre custo e tecnologia.

Relativamente aos processos de ETL, normalmente é necessária tecnologia que permita ler e transcrever os dados, outra que possa codificar os processos e uma API através da qual se possa consultar os dados ou torná-los disponíveis para consumidores externos (por exemplo, numa base de dados ou similar). Todos os fornecedores cloud disponibilizam opções para as ações acima mencionadas, utilizando alguns dos serviços da Google Cloud Platform (GCP) e da Amazon Web Services (AWS) como exemplo:

Google Cloud Storage + Google Dataflow + Google BiqQuery
S3 + Glue + Redshift

Todas estas tecnologias têm pontos fracos e pontos fortes, mas executam a função para o qual foram desenhadas de um modo exemplar. Mas e o que acontece se implementar todos os seus processos de ETL utilizando estas ferramentas e, posteriormente, decidir abandonar a estratégia cloud ou até mudar de fornecedor?

Portabilidade vs. Performance (E como pode afetar a dependência com o fornecedor cloud)

Nem sempre é necessário existir portabilidade (e eu concordo com isso). Aliás, este blog post pode até nem fazer sentido para si caso tenha a certeza de que a sua operação irá estar associada apenas a um forncedor de cloud. Por norma, as grandes organizações que operam em vários países regulados apresentam um problema – do qual não se fala com frequência – que é o facto de nem todos os fornecedores de serviços cloud poderem assegurar as suas operações em todos os países do mundo (pensem, por exemplo, em instituições financeiras que necessitam de processar/transformar dados em países regulados mas de onde os dados não podem sair) e, da nossa experiência de campo, normalmente existem dois cenários para estes processos:

Os processos de carregamento e transformação são muito simples e operam sob conjuntos de dados pequenos/moderados (vamos assumir para este exemplo uma escala de magnitude de altos valores de megabytes a baixos valores de gigabytes), para os quais não é necessário utilizar tecnologias de computacão elástica. Estes casos normalmente representam 60 a 85% dos casos de uso;
Os processos de carregamento e de transformação são muito complexos e operam sob conjuntos de dados muito grandes (que variam entre altos valores de gigabytes e valores superiores) e que necessitam de tecnologia que consiga escalar o suficiente para atingir o nível necessário, de modo a fazer a computação em tempo adequado. Estes são normalmente os restantes casos, representando entre 15 a 40%.

O primeiro cenário, felizmente, é o mais comum. O facto de a maior parte dos processos de ETL serem “simples” significa que, talvez, seja possível evitar o uso de tecnologias de armazenamento de dados e/ou computação que rapidamente o tornem dependente do fornecedor cloud. O segundo cenário é ligeiramente mais complexo mas mais interessante.

Num cenário em que se revela necessário que a tecnologia escale de acordo com a quantidade de dados para processar, faz com que, normalmente, seja preciso tomar algumas decisões e fazer alguns compromissos tecnológicos. Hoje em dia, felizmente, já existe um espectro considerável de ferramentas que permitem escalar o processamento e os fornecedores cloud optam por focar-se apenas num pequeno conjunto que possibilitam a manutenção dos utilizadores. Por exemplo, no GCP existe o DataFlow, DataProc e BigQuery para processar dados, enquanto que em AWS se poderá considerar Athena, EMR e Redshift, entre outros.

Independentemente da selecção das ferramentas ou do fornecedor cloud irá sempre existir uma necessidade de orquestrar estes processos, de modo a implementar processos de ETL. É aqui que uma ferramenta como o Pentaho Data Integration pode ajudar, independentemente da escolha tecnológica.

Como pode uma ferramenta como o Pentaho Data Integration ajudar?

Para os menos atentos, o Pentaho Data Integration (PDI) da Hitachi Vantara é uma ferramenta de ETL open source, que pode ser utilizada para implementar os processos de ETL. O PDI pode, ainda, ajudar com a execução em cloud e com a orquestração de processos através de algumas das suas funcionalidades, já que:

Tem o seu próprio motor de transformação, que pode ser usado independentemente do fornecedor de cloud;
Consegue abstrair a camada de armazenamento de dados utilizando um conceito de Sistema de Ficheiros Virtual (VFS);

Consegue interagir com tecnologias externas, como por exemplo, o Google BigQuery ou Redshift, para orquestrar processos que dependem de outras tecnologias.

Então, como tornar isto possível?

Abstrair a camada de armazenamento de dados

O PDI oferece uma funcionalidade VFS muito útil, implementada com base no projeto Apache VFS, que possibilita a abstração dos sistemas de ficheiros. Na prática, o que isto significa é que idependentemente dos processos requererem uma leitura e/ou escrita num sistema de ficheiros, é possível implementá-los sem ter de pensar que tipo de sistema de ficheiros está a ser utilizado, já que pode ser um sistema local, um servidor SFTP remoto, Google Cloud Storage ou, até, S3. Assim, as transformações de ETL implementadas de um modo correto irão funcionar de maneira transparente sobre todos eles. Mas como é que isto funciona?

É muito fácil! A notação do sistema VFS necessita de um prefixo para o filesystem, que ajuda a identificar um caminho para um ficheiro, tal como:

filesystem://path/to/file.txt

O que isto quer dizer é que se nos processos de ETL quiser aceder a um caminho denominado “/input-data/sales/” poderá utilizar esta funcionalidade para exprimir esse caminho da seguinte forma:

file:///input-data/sales/
s3://bucket-name/input-data/sales/
gs://bucket-name/input-data/sales/

Resumidamente, o que isto indica é que é possível escrever código que opera sobre um sistema de ficheiros independentemente do seu tipo. Mas que mais podemos utilizar para manter o nível de portabilidade?

Um motor de ETL independente

Como indicado anteriormente, o PDI possui o seu próprio motor de execução e, como é baseado na linguagem de programação Java, pode ser executado em todos os ambientes nos quais a máquina virtual Java seja compatível. Quer isto dizer que ao implementar processos de ETL implementados com o PDI já não é necessário pensar na tecnologia que o irá executar, característica que o torna altamente fléxivel para poder ser executado em diferentes ambientes. Poderá codificar apenas uma vez e instalá-lo onde quer que o motor execute.

O que isto quer dizer, voltando ao tópico do artigo, é que para os processos de ETL simples que definimos anteriormente, poderá atingir um nível de portabilidade muito alto com o PDI que, por sua vez, irá permitir mover o ETL de ambiente de uma maneira muito simples. Por exemplo:

Comece por desenhar e testar os processos de ETL nos seus servidores e sistema de ficheiros locais, nos quais o PDI é executado, seja numa máquina virtual ou num servidor utilizado para o efeito;
Decida se pretende mover o ETL para AWS e parametrize o ETL de modo a que seja usado o AWS S3 como sistema de ficheiros, em vez do seu sistema de ficheiros local, e instale o PDI numa instância EC2;
Por motivos externos, é necessário que esse mesmo ETL passe a utilizar a Google Cloud Platform para que se possa executar este processo em diferentes regiões do planeta: parametrize o ETL de modo a que possa utilizar o Google Cloud Storage como sistema de ficheiros e instale o PDI num instância de Google Compute;

É claro que esta é uma visão muito limitada sobre aquilo que se pode fazer através de um fornecedor cloud, no entanto, dá-lhe a possibilidade de ter 100% de portabilidade e uma facilidade de migração do ETL, sem a qual não seria possível. Para cenários mais complexos, o PDI também tem algumas opções que permitem escalar o processamento ou ligar-se a ferramentas externas:

É possível utilizar um ou mais servidores Carte embebidos para escalar a solução horizontalmente, seja para dividir ou para segmentar o processamento;
É possível implementar as transformações de dados em Map/Reduce nativo;
É possível utilizar a nova Abstract Execution Layer para escalar o processamento utilizando a framework Apache Spark;
É possível ligar a ferramentas externas como Google BigQuery ou Redshift depois de carregados os dados para orquestrar todo o processamento.

A estes cenários mais complexos acrescenta-se o facto de que é necessário orquestrar os processos de ETL, na maioria das vezes, de um modo mais simples, para que não se torne a manutenção da solução demasiado complexa.

Orquestrar o processamento de dados

Ao longo deste artigo abordámos dois cenários de processamento. No entanto, estes dois cenários vivem em conjunto, de modo a que se possam formar os processos de ETL completos numa empresa. Num cenário em que seja necessária alguma portabilidade entre fornecedores cloud, é fundamental que tenha à sua disposição uma ferramenta altamente fléxivel e parameterizável, de modo a adaptar-se de uma forma mais dinâmica aos requisitos de execução.

Por exemplo, se tiver uma implementação em AWS que utiliza S3 e Redshift e quiser mover para GCP:

O código que manipula ficheiros e processamentos e que apenas utiliza S3, poderá ser transportado a 100% para GCS, quando implementado utilizando as capacidades de VFS do PDI;
O código que carrega e orquestra os processos externos em Redshift, provavelmente não terá a portabilidade assegurada na sua totalidade (isto é, se conseguir garantir alguma…) mas pode ser implementado de modo a que seja possível trocá-lo por uma implementação compatível com Google BigQuery, que utiliza os mesmos ficheiros de input e estrutura de tabelas, para que possa ter um funcionamento compatível.

Claro que este facto requer que sejam mantidos módulos de código específicos para cada fornecedor cloud mas, pelo menos, é possível compartimentalizar e encapsular esta funcionalidade de uma maneira mais simples, para que se possa proceder a uma alteração, se necessário. Com o PDI, a funcionalidade de orquestração, nomeadamente Jobs, permite parameterizar configurações para a própria orquestração, que, por sua vez, permite trocar estes módulos de um modo extremamente simples.

Conclusão

Espero que este artigo tenha sido esclarecedor de como é possível implementar os seus processos de ETL e ainda manter alguma portabilidade entre fornecedores cloud. Ferramentas como o PDI tornam muito mais simples atingir este objetivo, sabendo que as versões futuras da ferramenta irão facilitar o alcance a um maior nível de portabilidade, através de algumas novas funcionalidades!

André Simões

Business Intelligence & Big Data Evangelist, Xpand IT

André Simões

Cookie	Duração	Descrição
_GRECAPTCHA	5 meses 27 dias	Este cookie é configuirado pelo Google reCAPTCHA protege o nosso site contra ataques de spam nos formulários de contacto.
_icl_visitor_lang_js	1 dia	Este cookie é configurado pelo WPML WordPress plugin guarda o idioma redirecionado.
cli_user_preference	1 ano	Este cookie é definido pelo plugin de Consentimento de Cookies GDPR e é usado para armazenar se o usuário consentiu ou não com o uso de cookies. Ele não armazena dados pessoais.
cookielawinfo-checkbox-[CATEGORIA]	11 months	Este cookie é usado pelo GDPR Cookie Consent plugin guarda o consentimento do visitante da [CATEGORIA].
CookieLawInfoConsent	1 ano	CookieYes define este cookie para registar o estado predefinido do botao correspondente a categoria e o estado do CCPA. Funciona apenas em coordenacao com o cookie principal.
PHPSESSID	sessão	Usado em aplicações PHP nativas, este cookie é usado para armazenar e identificar o ID de sessão exclusivo de um utilizador com a finalidade de gerir a sessão do mesmo no site. É um cookie de sessão e é excluído quando todas as janelas do navegador são fechadas.
viewed_cookie_policy	11 meses	Este cookie usado pelo GDPR Cookie Consent plugin para guardar se o visitante consentiu ou não o use the cookies. Não guarda nenhum dado pessoal.
viewed_cookies_policy	11 meses	Este cookie usado pelo GDPR Cookie Consent plugin para guardar se o visitante consentiu ou não o use the cookies. Não guarda nenhum dado pessoal.
wpml_browser_redirect_test	sessão	Este cookie é usado pelo WPML WordPress plugin é usado para testar se os cookies estão ativos no browser.

Cookie	Duração	Descrição
__cf_bm	30 minutos	Este cookie é configurado pela CloudFlare para dar suporte ao Cloudflare Bot Management
_os_session	14 days	Este cookie não contém nenhuma informação específica do utilizador.
abgroups	1 mês	Ativa o grupo A ou B para o teste A/B de funcionalidades.
brighsprout_auth_provider_session	2 horas	Brigh Sprout set's this cookie.
bscookie	2 anos	Este cookie é usado pelo LinkedIn guarda se o utlizador fez login com multi-factor
CONSENT	2 anos	Este cookie é usado pelo YouTube em videos embebidos e regista dados estatísticos anonimamente.
cxssh_status	3 meses 8 dias	Este cookie determina se o navegador aceita cookies.
lang	sessão	Este cookie é usado pelo LinkedIn para guardar a escolha do idioma do visitante no website linkedin.com.
language	session	Este cookie é usado para guardar a escolha no nosso website.
li_gc	2 anos	Utilizado pelo LinkedIn para armazenar o consentimento dos visitantes em relação ao uso de cookies para fins não essenciais.
lidc	1 dia	Este cookie é usado pelo LinkedIn para facilitar a escolha do datacenter.
ln_or	1 dia	Cookie usada pelo LinkedIn.
VISITOR_INFO1_LIVE	5 meses 27 dias	Este cookie usado pelo YouTube para medir a largura de banda de modo a determinar se o visitante acede à nova ou à antiga interface.
XSRF-TOKEN	2 horas	Wix set this cookie for security purposes and this cookie is written to help with site security in preventing Cross-Site Request Forgery attacks.
yt-remote-connected-devices	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.
yt-remote-device-id	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.

Cookie	Duração	Descrição
__adroll	1 ano 1 mes	Este cookie e definido pela AdRoll para identificar utilizadores em visitas e dispositivos diferentes. e utilizado em leiloes em tempo real para que os anunciantes possam exibir anuncios relevantes.
__adroll_fpc	1 ano	A AdRoll define este cookie para segmentar utilizadores com base no comportamento de navegacao.
__adroll_shared	1 ano 1 mes	A AdRoll define este cookie para recolher informacoes sobre utilizadores em diferentes websites para publicidade relevante.
__ar_v4	1 ano	Este cookie e definido sob o dominio DoubleClick para colocar anuncios que direcionam para o website nos resultados de pesquisa do Google e para monitorizar as taxas de conversao desses anuncios.
__rd_experiment_version	sessao	Este cookie monitoriza o comportamento do utilizador nos formulários da RD, contribuindo para a criação de relatórios analíticos sobre os mesmos.
_clck	1 ano	A Microsoft Clarity define este cookie para reter o ID do Utilizador Clarity do navegador e definicoes exclusivas para aquele website. Isso garante que as acoes realizadas durante visitas subsequentes ao mesmo website sejam associadas ao mesmo ID do utilizador.
_clsk	1 dia	A Microsoft Clarity define este cookie para armazenar e consolidar as visualizacoes de pagina de um utilizador numa unica sessao de gravacao.
_fbp	3 meses	Este cookie é configurado pelo Facebook para exibir anúncios quando estiver no Facebook ou noutra plataforma digital onde é usada publicidade do Facebook
_ga	2 anos	Este cookie é configurado pelo Google Analytics, calcula dados de visitantes, sessões, campanhas e acompanha o uso do site. O cookie armazena informações anónimas atribuindo um número aleatório para distinguir visitantes únicos.
_ga_*	2 anos	Este cookie é configurado pelo Google Analytics é usado para distinguir os visitantes.
_gat	1 minuto	Este cookie é configurado pelo Google Analytics para limitar a taxa de pedidos e coleta de dados em sites de alto volume tráfego.
_gat_gtag_UA_*	1 minuto	Este cookie é configurado pelo Google Analytics usado para distinguir os visitantes.
_gat_UA-*	1 minuto	Este é configurado pelo Google Analytics, onde o elemento padrão no nome contém um número que identifica o site. É uma variação do cookie _gat usado para limitar a quantidade de dados registados pelo Google em sites de alto volume de tráfego.
_gcl_au	3 meses	O Google Tag Manager define o cookie para experimentar a eficiencia de publicidade em websites que utilizam os seus servicos.
_gd*	sessão	Este cookie é configurado pelo Google Analytics é usado para distinguir os visitantes.
_gid	1 dia	Este cookie é configurado pelo Google Analytics guarda um ID único que é usado para gerar dados estatísticos sobre como o visitante usa o site
_hjAbsolutesessaoInProgress	30 minutos	O Hotjar define este cookie para detetar a primeira visualizacao da pagina de um utilizador, que e um sinal Verdadeiro/Falso definido pelo cookie.
_hjFirstSeen	30 minutos	O Hotjar define este cookie para identificar a primeira sessao de um novo utilizador. Ele armazena o valor verdadeiro/falso, indicando se foi a primeira vez que o Hotjar viu este utilizador.
_hjIncludedInsessaoSample_*	2 minutos	O Hotjar define este cookie para determinar se um utilizador está incluído na amostragem de dados definida pelo limite diário de sessões do seu site.
_hjRecordingEnabled	nunca	O Hotjar define este cookie quando uma gravacao comeca e e lido quando o modulo de gravacao e inicializado, para verificar se o utilizador ja esta numa gravacao numa sessao especifica.
_hjRecordingLastActivity	nunca	O Hotjar define este cookie quando uma gravacao de utilizador comeca e quando os dados sao enviados atraves do WebSocket.
_hjsessao_*	30 minutos	O Hotjar define este cookie para garantir que os dados de visitas subsequentes ao mesmo site sejam atribuidos ao mesmo ID de utilizador, que persiste no ID de Utilizador Hotjar, unico para esse site.
_hjsessaoUser_*	1 ano	O Hotjar define este cookie para garantir que os dados de visitas subsequentes ao mesmo site sejam atribuidos ao mesmo ID de utilizador, que persiste no ID de Utilizador Hotjar, unico para esse site.
_te_	sessao	O Grupo Adroll regista um ID unico que identifica o dispositivo de um utilizador que regressa. O ID e utilizado para anuncios direcionados.
319af4c0-e197-4de9-8a9b-fe98c8a2ca04	sessão	O Dynamics 365 Marketing usa esta cookie para agrupar todos os carregamentos de página por um determinado visitante que são registrados pelo mesmo script de análise comportamental e que ocorrem dentro do prazo configurado. Ele considera tudo isto como parte de uma única visita no site.
79f08280-5c63-4331-b04d-fb6f39afda51	2 anos	Esta cookie permite que o Dynamics 365 Marketing pontue leads com base no nível de interação em um determinado site. Não contém informações pessoais, mas identifica exclusivamente um navegador específico em uma máquina específica, e o Dynamics 365 Marketing pode usá-lo para correlacionar essa ID com um contacto real na base de dados do Dynamics 365 Marketing.
AnalyticsSyncHistory	1 mês	Este cookie é usado pelo Linkedin para guardar informação sobre quando ocorreu a sincronização com o cookie lms_analytics para os visitantes dos países selecionados.
anj	3 meses	A AppNexus define o cookie anj, que contem dados sobre se um ID de cookie esta sincronizado com parceiros.
ANONCHK	10 minutos	O cookie ANONCHK, definido pelo Bing, e usado para armazenar o ID da sessao do utilizador e verificar os cliques em anuncios no motor de busca Bing. O cookie ajuda na geracao de relatorios e personalizacao.
bcookie	2 anos	Este cookie é usado pelo LinkedIn adiciona tags quando são usados os botões "share" do Linkedin para identificar o browser.
browser_id	5 anos	Este cookie é usado para identificarmos o browser do visitante quando voltar a visitar o website.
CLID	1 ano	Usada pelo Microsoft Clarity, o objetivo desta cookie é gerar um mapa de calor e uma gravação da sessão.
CMID	1 ano	A Casale Media define este cookie para recolher informacoes sobre o comportamento do utilizador para publicidade direcionada.
CMPRO	3 meses	A CasaleMedia define o cookie CMPRO para rastreamento anonimo de utilizacao e publicidade direcionada.
CMPS	3 meses	A CasaleMedia define o cookie CMPS para rastreamento anonimo de utilizadores com base nas visitas ao website, exibindo anuncios direcionados.
fr	3 meses	Este cookie é usado pelo Facebook permite mostrar anúncios relevantes aos visitantes, analisando o comportamento do visitante noutros websites que possuem pixel do Facebook ou o plugin social do Facebook.
IDE	1 ano 24 dias	Os cookies Google DoubleClick IDE armazenam informacoes sobre como o utilizador utiliza o website para apresentar anuncios relevantes de acordo com o perfil do utilizador.
KRTBCOOKIE_*	3 meses	A Pubmatic define este cookie para registar um ID unico que identifica o dispositivo do utilizador em visitas posteriores a websites que utilizam a mesma rede de anuncios.
li_sugr	3 meses	O LinkedIn define este cookie para recolher dados sobre o comportamento do utilizador, otimizando o website e tornando os anuncios no website mais relevantes.
MR	7 dias	Este cookie, definido pelo Bing, e usado para recolher informacoes do utilizador para fins de analise.
msd365mkttr	2 anos	O Microsoft Dynamic 365 guarda informações sobre o comportamento do utilizador em vários sites. Esta informação é usada para otimizar a relevância do anúncio no site.
msd365mkttrs	sessão	Permite a utilização de um formulário específico, que envia os dados preenchidos pelo utilizador para o Microsoft Dynamic 365.
MUID	1 ano	Identifica os navegadores que visitam os sites da Microsoft. Estes cookies são usados para análise de sites e outras finalidades operacionais.
PugT	1 mes	A PubMatic define este cookie para verificar quando os cookies foram atualizados no navegador, a fim de limitar o numero de chamadas ao armazenamento de cookies no lado do servidor.
scribd_ubtc	10 anos	A Scribd define este cookie para recolher dados sobre o comportamento do utilizador em varios websites e maximizar a relevancia dos anuncios no website.
SM	sessao	O cookie da Microsoft Clarity define este cookie para sincronizar o MUID em dominios Microsoft.
SRM_B	1 ano 24 dias	Usado pela Microsoft Advertising como um ID unico para visitantes.
test_cookie	15 minutos	O doubleclick.net define este cookie para verificar se o navegador do utilizador suporta cookies.
UserMatchHistory	1 mês	Este cookie usado pelo LinkedIn para sincronizar os ID dos Ads.
uuid2	3 meses	O cookie uuid2 e definido pela AppNexus e regista informacoes que ajudam a distinguir entre dispositivos e navegadores. Essas informacoes sao usadas para selecionar anuncios entregues pela plataforma e avaliar o desempenho do anuncio e seu pagamento atribuido.
VISITOR_PRIVACY_METADATA	5 meses 27 dias	Cookie utilizado pelo YouTube para rastrear e enriquecer as configurações de privacidade dos utilizadores na plataforma do YouTube.
vuid	2 anos	Este cookie é configurado pelo Vimeo guarda informação através dos vídeos embebidos, posteriormente permitem rastrear o visitante através de um ID único.
YSC	sessão	Este cookie é usado pelo Youtube para guardar as visualizações de videos do youtube embebidos em páginas.
yt.innertube::nextId	nunca	Este cookie é usado pelo YouTube regista um ID único para guardar quais os vídeos que o visitante visualizou.
yt.innertube::requests	nunca	Este cookie é usado pelo YouTube regista um ID único para guardar quais os vídeos que o visitante visualizou.

Search

Business Intelligence & Analytics

ETL Gone Portable: Reduza a dependência do seu Cloud Provider

Portabilidade vs. Performance (E como pode afetar a dependência com o fornecedor cloud)

Como pode uma ferramenta como o Pentaho Data Integration ajudar?