Framework de BI: a importância de estruturar pipelines de dados

ESTE ARTIGO EM 5 SEGUNDOS:

Existem alguns passos para uma framework funcionar bem;
São eles: Ingestão, Processamento, Azure DevOps e Monitorização.

Hoje em dia, a maior parte das empresas têm necessidades relacionadas com dados. A forma como esses dados são tratados e geridos têm muitos processos que, a certo ponto, podem sobrecarregar a capacidade de trabalho. Às vezes, enquanto trabalham com dados, os seus colaboradores, especialmente developers, vêem-se a desenvolver os mesmos processos ou pipelines de dados para diferentes projetos. É, por isso, que a necessidade de uma estrutura como uma framework é tão importante.

Com ela, é possível ter processos padrão de forma a que possa controlar e monitorizar melhor todos os pipelines de dados. Esta abordagem ajuda a estabelecer as melhores práticas e evita tornar data lakes em data swamps, enquanto mantém lógicas de negócio independentes e específicas para cada pipeline, o que quer dizer que poderá lidar com cada data set de forma única e retirar o máximo partido.

Existem alguns passos para uma framework trabalhar bem. Descubra quais:

Ingestão

A ingestão de dados é uma etapa crucial em qualquer pipeline de processamento de dados e deve ser replicada várias vezes para reunir todos os dados necessários. Ao usar uma framework bem projetada para garantir que os dados sejam extraídos com eficiência de várias fontes e carregados no armazenamento de dados de destino, pode garantir que sabe sempre quantas linhas foram importadas, onde os dados foram colocados e garantir que tem um processo conciso e robusto com um único ponto de mudança para lidar com mudanças futuras.

Normalmente, a framework de ingestão de dados extrai dados de diferentes fontes, como bancos de dados do SQL Server, ficheiros .csv, etc. que podem ser carregados no armazenamento em nuvem, como Azure Data Lake Storage (ADLS) Gen 2, por exemplo. Esta etapa é onde as conexões de fontes de dados são feitas e onde os dados são preparados para serem ingeridos num armazenamento. Além disso, é nesta etapa que é configurada a lógica de carregamento, seja full load ou incremental. Basicamente, significa que pode processar todos os dados sempre que houver uma execução ou processar apenas novos dados.

Manter os dados brutos no armazenamento significa que, para a próxima etapa, que é o processamento, todos os dados estarão disponíveis, mesmo que não sejam usados imediatamente, o que significa que mais tarde poderá aproveitar os campos não utilizados e obter um controlo de dados abrangente.

Processamento

Transformar dados em tabelas estruturadas é uma etapa crítica no processo analítico. Depois de o processo de ingestão de dados ter corrido, a próxima etapa é processar e transformar os dados numa estrutura que possa ser usada para fins analíticos para obter uma análise de dados eficaz.

Esses pipelines de dados funcionam para limpar e manter a qualidade dos dados, realizar cálculos, especialmente aqueles que mais precisa que, normalmente são KPIs, e, ao fazer isso, dar alertas se algo correr mal durante a execução do processo. Embora a maioria das transformações sejam específicas para o modelo de negócios que está a ser processado, há tarefas lógicas que serão recorrentes, como monitorizar a qualidade e a execução dos dados ou, até mesmo, excluir dados para reprocessamento.

Essas tarefas recorrentes podem ser padronizadas, permitindo que os engenheiros de dados encaixem facilmente qualquer lógica de negócio específica no processo.

Vamos usar o exemplo do Azure Synapse. Após a ingestão de dados, eles são acedidos usando tabelas externas que lêem a diretoria ADLS Gen2, onde os ficheiros para uma tabela específica são armazenados. Para processar e transformar dados, dois tipos de pipelines de processamento podem ser desenvolvidos:

um para criar dimensões;
outro para criar tabelas de factos.

Ambos os processos utilizam a ferramenta Data Flow do Synapse, que é uma ferramenta de transformação de dados baseada na cloud, que permite aos utilizadores criar e gerir operações de transformação de dados em larga escala.

Quando o fluxo de dados é concluído, o resultado é uma tabela SQL que é gravada no Synapse Dedicated Pool. Essas tabelas podem ser usadas para soluções de analytics, como dashboards de Power BI, que inclui uma ligação para o Synapse Dedicated Pool que permite aos utilizadores importar tabelas ou fazer consultas diretas.

Exemplo simples de processamento de uma tabela de factos, utilizando um data flow

Azure DevOps

O Azure DevOps é um conjunto de tecnologias que oferece uma solução completa para desenvolvimento agile e DevOps. Este conjunto contém inúmeras tecnologias que podem auxiliar os developers na gestão de todo o processo de desenvolvimento, incluindo controlo de versões, integração contínua e entrega contínua. Independentemente da abordagem de desenvolvimento, aproveitar vários ambientes é uma prática recomendada reconhecida pelo setor. Isto garante que qualquer informação criada é minuciosamente avaliada, tanto tecnicamente quanto pelos business users, antes de ser tornada pública ou aplicada num contexto de produção.

Normalmente esses ambientes são Desenvolvimento, Testes ou Garantia de Qualidade (QA) e Produção. No ambiente de desenvolvimento, os engenheiros de dados desenvolvem e constroem pipelines. Quando esses pipelines estão num estado funcional e estável, eles são promovidos para o ambiente de QA, onde os oututs podem ser testados pelos utilizadores finais e/ou developers. Se nenhum desenvolvimento adicional for necessário, os pipelines podem ser enviados para Produção.

Embora os pipelines de dados sejam desenvolvidos de forma diferente do código, isso não significa que deve deixar DevOps de fora. Num workspace do Azure Synapse Analytics, a ferramenta de Integração Contínua/Entrega Contínua (CI/CD) move todas as entidades de um ambiente (desenvolvimento, QA, produção) para outro ambiente. Esses modelos serão usados para enviar os seus recursos para os ambientes de QA e Produção.

Esta abordagem oferece várias vantagens:

Em primeiro lugar, minimiza o impacto das alterações de outras equipas/developers;
Em segundo lugar, o tempo de inatividade e o risco são minimizados se o desenvolvimento e os testes forem feitos dentro de ambientes dedicados.
Por fim, a segurança e as permissões podem ser restritas a cada ambiente para reduzir o risco de erro humano, perda de dados e proteger dados confidenciais.

Monitorização

A monitorização é outra parte crucial da framework do Synapse e, para auxiliar essa área, existe a ferramenta Azure Monitor. Usando o Kusto Query Language (KQL), é possível consultar logs quase em tempo real e configurar alertas por e-mail que o administrador do espaço de trabalho Synapse receberá sempre que uma execução de pipeline falhar.

A framework também é capaz de armazenar os logs do Azure Monitor num contentor ADLS Gen2 para manter os dados históricos e consumi-los no Power BI e criar um relatório sobre esses logs. Os logs incluem estatísticas de execução e mensagens. As fases de ingestão e processamento da framework reúnem estatísticas funcionais de execução e guardam-nas também nos logs.

O Power BI é, então, usado para fazer análises ad hoc para entender, por exemplo, que pipelines podem demorar mais, se houve algum desvio nas linhas processadas ou outras estatísticas funcionais, qual deles falha com mais frequência, entender quando o dedicated pool está a atingir o limite de uso ou até criar combinações onde o número de linhas processadas é dividido pelo tempo para entender se o processo demorou mais que o normal.
Implementar o Azure Monitor, ajuda a minimizar riscos, melhorar a qualidade dos processos e garantir que os pipelines funcionam como o esperado.

Pensamentos finais

Ter uma framework para os seus pipelines de dados é realmente uma vantagem, pois fornece padronização e escalabilidade. Ter uma framework que executa todos os seus pipelines de dados torna todo o processo mais simples e eficiente porque os seus developers não precisam de perder tempo a definir propriedades para cada pipeline individualmente todas as vezes que mudam o seu ambiente de trabalho, por exemplo, de desenvolvimento para QA. Ter um lugar onde tudo corre dá mais controlo sobre a qualidade do processo, e dá mais poder para monitorizar tudo corretamente. Assim, quando surge um problema, os seus developers são alertados pela framework e podem verificar os logs necessários para entender o que aconteceu e resolver erros mais rapidamente.

Além disso, imagine ter de escalar todos os seus pipelines de dados um a um. Com a framework, poderá escalar todos de uma só vez, apenas alterando as propriedades da framework, em vez de alterar cada pipeline individualmente.

Francisco Candeias

Data Analytics Engineer – Xpand IT

Cookie	Duração	Descrição
_GRECAPTCHA	5 meses 27 dias	Este cookie é configuirado pelo Google reCAPTCHA protege o nosso site contra ataques de spam nos formulários de contacto.
_icl_visitor_lang_js	1 dia	Este cookie é configurado pelo WPML WordPress plugin guarda o idioma redirecionado.
cli_user_preference	1 ano	Este cookie é definido pelo plugin de Consentimento de Cookies GDPR e é usado para armazenar se o usuário consentiu ou não com o uso de cookies. Ele não armazena dados pessoais.
cookielawinfo-checkbox-[CATEGORIA]	11 months	Este cookie é usado pelo GDPR Cookie Consent plugin guarda o consentimento do visitante da [CATEGORIA].
CookieLawInfoConsent	1 ano	CookieYes define este cookie para registar o estado predefinido do botao correspondente a categoria e o estado do CCPA. Funciona apenas em coordenacao com o cookie principal.
PHPSESSID	sessão	Usado em aplicações PHP nativas, este cookie é usado para armazenar e identificar o ID de sessão exclusivo de um utilizador com a finalidade de gerir a sessão do mesmo no site. É um cookie de sessão e é excluído quando todas as janelas do navegador são fechadas.
viewed_cookie_policy	11 meses	Este cookie usado pelo GDPR Cookie Consent plugin para guardar se o visitante consentiu ou não o use the cookies. Não guarda nenhum dado pessoal.
viewed_cookies_policy	11 meses	Este cookie usado pelo GDPR Cookie Consent plugin para guardar se o visitante consentiu ou não o use the cookies. Não guarda nenhum dado pessoal.
wpml_browser_redirect_test	sessão	Este cookie é usado pelo WPML WordPress plugin é usado para testar se os cookies estão ativos no browser.

Cookie	Duração	Descrição
__cf_bm	30 minutos	Este cookie é configurado pela CloudFlare para dar suporte ao Cloudflare Bot Management
_os_session	14 days	Este cookie não contém nenhuma informação específica do utilizador.
abgroups	1 mês	Ativa o grupo A ou B para o teste A/B de funcionalidades.
brighsprout_auth_provider_session	2 horas	Brigh Sprout set's this cookie.
bscookie	2 anos	Este cookie é usado pelo LinkedIn guarda se o utlizador fez login com multi-factor
CONSENT	2 anos	Este cookie é usado pelo YouTube em videos embebidos e regista dados estatísticos anonimamente.
cxssh_status	3 meses 8 dias	Este cookie determina se o navegador aceita cookies.
lang	sessão	Este cookie é usado pelo LinkedIn para guardar a escolha do idioma do visitante no website linkedin.com.
language	session	Este cookie é usado para guardar a escolha no nosso website.
li_gc	2 anos	Utilizado pelo LinkedIn para armazenar o consentimento dos visitantes em relação ao uso de cookies para fins não essenciais.
lidc	1 dia	Este cookie é usado pelo LinkedIn para facilitar a escolha do datacenter.
ln_or	1 dia	Cookie usada pelo LinkedIn.
VISITOR_INFO1_LIVE	5 meses 27 dias	Este cookie usado pelo YouTube para medir a largura de banda de modo a determinar se o visitante acede à nova ou à antiga interface.
XSRF-TOKEN	2 horas	Wix set this cookie for security purposes and this cookie is written to help with site security in preventing Cross-Site Request Forgery attacks.
yt-remote-connected-devices	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.
yt-remote-device-id	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.

Cookie	Duração	Descrição
__adroll	1 ano 1 mes	Este cookie e definido pela AdRoll para identificar utilizadores em visitas e dispositivos diferentes. e utilizado em leiloes em tempo real para que os anunciantes possam exibir anuncios relevantes.
__adroll_fpc	1 ano	A AdRoll define este cookie para segmentar utilizadores com base no comportamento de navegacao.
__adroll_shared	1 ano 1 mes	A AdRoll define este cookie para recolher informacoes sobre utilizadores em diferentes websites para publicidade relevante.
__ar_v4	1 ano	Este cookie e definido sob o dominio DoubleClick para colocar anuncios que direcionam para o website nos resultados de pesquisa do Google e para monitorizar as taxas de conversao desses anuncios.
__rd_experiment_version	sessao	Este cookie monitoriza o comportamento do utilizador nos formulários da RD, contribuindo para a criação de relatórios analíticos sobre os mesmos.
_clck	1 ano	A Microsoft Clarity define este cookie para reter o ID do Utilizador Clarity do navegador e definicoes exclusivas para aquele website. Isso garante que as acoes realizadas durante visitas subsequentes ao mesmo website sejam associadas ao mesmo ID do utilizador.
_clsk	1 dia	A Microsoft Clarity define este cookie para armazenar e consolidar as visualizacoes de pagina de um utilizador numa unica sessao de gravacao.
_fbp	3 meses	Este cookie é configurado pelo Facebook para exibir anúncios quando estiver no Facebook ou noutra plataforma digital onde é usada publicidade do Facebook
_ga	2 anos	Este cookie é configurado pelo Google Analytics, calcula dados de visitantes, sessões, campanhas e acompanha o uso do site. O cookie armazena informações anónimas atribuindo um número aleatório para distinguir visitantes únicos.
_ga_*	2 anos	Este cookie é configurado pelo Google Analytics é usado para distinguir os visitantes.
_gat	1 minuto	Este cookie é configurado pelo Google Analytics para limitar a taxa de pedidos e coleta de dados em sites de alto volume tráfego.
_gat_gtag_UA_*	1 minuto	Este cookie é configurado pelo Google Analytics usado para distinguir os visitantes.
_gat_UA-*	1 minuto	Este é configurado pelo Google Analytics, onde o elemento padrão no nome contém um número que identifica o site. É uma variação do cookie _gat usado para limitar a quantidade de dados registados pelo Google em sites de alto volume de tráfego.
_gcl_au	3 meses	O Google Tag Manager define o cookie para experimentar a eficiencia de publicidade em websites que utilizam os seus servicos.
_gd*	sessão	Este cookie é configurado pelo Google Analytics é usado para distinguir os visitantes.
_gid	1 dia	Este cookie é configurado pelo Google Analytics guarda um ID único que é usado para gerar dados estatísticos sobre como o visitante usa o site
_hjAbsolutesessaoInProgress	30 minutos	O Hotjar define este cookie para detetar a primeira visualizacao da pagina de um utilizador, que e um sinal Verdadeiro/Falso definido pelo cookie.
_hjFirstSeen	30 minutos	O Hotjar define este cookie para identificar a primeira sessao de um novo utilizador. Ele armazena o valor verdadeiro/falso, indicando se foi a primeira vez que o Hotjar viu este utilizador.
_hjIncludedInsessaoSample_*	2 minutos	O Hotjar define este cookie para determinar se um utilizador está incluído na amostragem de dados definida pelo limite diário de sessões do seu site.
_hjRecordingEnabled	nunca	O Hotjar define este cookie quando uma gravacao comeca e e lido quando o modulo de gravacao e inicializado, para verificar se o utilizador ja esta numa gravacao numa sessao especifica.
_hjRecordingLastActivity	nunca	O Hotjar define este cookie quando uma gravacao de utilizador comeca e quando os dados sao enviados atraves do WebSocket.
_hjsessao_*	30 minutos	O Hotjar define este cookie para garantir que os dados de visitas subsequentes ao mesmo site sejam atribuidos ao mesmo ID de utilizador, que persiste no ID de Utilizador Hotjar, unico para esse site.
_hjsessaoUser_*	1 ano	O Hotjar define este cookie para garantir que os dados de visitas subsequentes ao mesmo site sejam atribuidos ao mesmo ID de utilizador, que persiste no ID de Utilizador Hotjar, unico para esse site.
_te_	sessao	O Grupo Adroll regista um ID unico que identifica o dispositivo de um utilizador que regressa. O ID e utilizado para anuncios direcionados.
319af4c0-e197-4de9-8a9b-fe98c8a2ca04	sessão	O Dynamics 365 Marketing usa esta cookie para agrupar todos os carregamentos de página por um determinado visitante que são registrados pelo mesmo script de análise comportamental e que ocorrem dentro do prazo configurado. Ele considera tudo isto como parte de uma única visita no site.
79f08280-5c63-4331-b04d-fb6f39afda51	2 anos	Esta cookie permite que o Dynamics 365 Marketing pontue leads com base no nível de interação em um determinado site. Não contém informações pessoais, mas identifica exclusivamente um navegador específico em uma máquina específica, e o Dynamics 365 Marketing pode usá-lo para correlacionar essa ID com um contacto real na base de dados do Dynamics 365 Marketing.
AnalyticsSyncHistory	1 mês	Este cookie é usado pelo Linkedin para guardar informação sobre quando ocorreu a sincronização com o cookie lms_analytics para os visitantes dos países selecionados.
anj	3 meses	A AppNexus define o cookie anj, que contem dados sobre se um ID de cookie esta sincronizado com parceiros.
ANONCHK	10 minutos	O cookie ANONCHK, definido pelo Bing, e usado para armazenar o ID da sessao do utilizador e verificar os cliques em anuncios no motor de busca Bing. O cookie ajuda na geracao de relatorios e personalizacao.
bcookie	2 anos	Este cookie é usado pelo LinkedIn adiciona tags quando são usados os botões "share" do Linkedin para identificar o browser.
browser_id	5 anos	Este cookie é usado para identificarmos o browser do visitante quando voltar a visitar o website.
CLID	1 ano	Usada pelo Microsoft Clarity, o objetivo desta cookie é gerar um mapa de calor e uma gravação da sessão.
CMID	1 ano	A Casale Media define este cookie para recolher informacoes sobre o comportamento do utilizador para publicidade direcionada.
CMPRO	3 meses	A CasaleMedia define o cookie CMPRO para rastreamento anonimo de utilizacao e publicidade direcionada.
CMPS	3 meses	A CasaleMedia define o cookie CMPS para rastreamento anonimo de utilizadores com base nas visitas ao website, exibindo anuncios direcionados.
fr	3 meses	Este cookie é usado pelo Facebook permite mostrar anúncios relevantes aos visitantes, analisando o comportamento do visitante noutros websites que possuem pixel do Facebook ou o plugin social do Facebook.
IDE	1 ano 24 dias	Os cookies Google DoubleClick IDE armazenam informacoes sobre como o utilizador utiliza o website para apresentar anuncios relevantes de acordo com o perfil do utilizador.
KRTBCOOKIE_*	3 meses	A Pubmatic define este cookie para registar um ID unico que identifica o dispositivo do utilizador em visitas posteriores a websites que utilizam a mesma rede de anuncios.
li_sugr	3 meses	O LinkedIn define este cookie para recolher dados sobre o comportamento do utilizador, otimizando o website e tornando os anuncios no website mais relevantes.
MR	7 dias	Este cookie, definido pelo Bing, e usado para recolher informacoes do utilizador para fins de analise.
msd365mkttr	2 anos	O Microsoft Dynamic 365 guarda informações sobre o comportamento do utilizador em vários sites. Esta informação é usada para otimizar a relevância do anúncio no site.
msd365mkttrs	sessão	Permite a utilização de um formulário específico, que envia os dados preenchidos pelo utilizador para o Microsoft Dynamic 365.
MUID	1 ano	Identifica os navegadores que visitam os sites da Microsoft. Estes cookies são usados para análise de sites e outras finalidades operacionais.
PugT	1 mes	A PubMatic define este cookie para verificar quando os cookies foram atualizados no navegador, a fim de limitar o numero de chamadas ao armazenamento de cookies no lado do servidor.
scribd_ubtc	10 anos	A Scribd define este cookie para recolher dados sobre o comportamento do utilizador em varios websites e maximizar a relevancia dos anuncios no website.
SM	sessao	O cookie da Microsoft Clarity define este cookie para sincronizar o MUID em dominios Microsoft.
SRM_B	1 ano 24 dias	Usado pela Microsoft Advertising como um ID unico para visitantes.
test_cookie	15 minutos	O doubleclick.net define este cookie para verificar se o navegador do utilizador suporta cookies.
UserMatchHistory	1 mês	Este cookie usado pelo LinkedIn para sincronizar os ID dos Ads.
uuid2	3 meses	O cookie uuid2 e definido pela AppNexus e regista informacoes que ajudam a distinguir entre dispositivos e navegadores. Essas informacoes sao usadas para selecionar anuncios entregues pela plataforma e avaliar o desempenho do anuncio e seu pagamento atribuido.
VISITOR_PRIVACY_METADATA	5 meses 27 dias	Cookie utilizado pelo YouTube para rastrear e enriquecer as configurações de privacidade dos utilizadores na plataforma do YouTube.
vuid	2 anos	Este cookie é configurado pelo Vimeo guarda informação através dos vídeos embebidos, posteriormente permitem rastrear o visitante através de um ID único.
YSC	sessão	Este cookie é usado pelo Youtube para guardar as visualizações de videos do youtube embebidos em páginas.
yt.innertube::nextId	nunca	Este cookie é usado pelo YouTube regista um ID único para guardar quais os vídeos que o visitante visualizou.
yt.innertube::requests	nunca	Este cookie é usado pelo YouTube regista um ID único para guardar quais os vídeos que o visitante visualizou.

Search

Business Intelligence & Analytics

Framework de BI: a importância de estruturar os pipelines de dados

ESTE ARTIGO EM 5 SEGUNDOS:

Ingestão

Processamento

Azure DevOps

Monitorização

Pensamentos finais

Read more in

Search

Popular Posts

Tags

Portugal

Alemanha

Reino Unido

Suécia

Soluções

Centros de Excelência

Tecnologias

Recursos e Novidades

Empresa

Business Intelligence & Analytics

ESTE ARTIGO EM 5 SEGUNDOS:

Ingestão

Processamento

Azure DevOps

Monitorização

Pensamentos finais

Share

Read more in

Muitos dados mas pouca informação? Como uma estratégia de dados pode transformar a sua empresa

O que é o Microsoft Fabric e como pode impactar o seu negócio

Como migrar o SQL Server Integration Services

Search

Popular Posts

Tags

Selecione a sua localização

Portugal

Português

Alemanha

Alemão

Reino Unido

Inglês

Suécia

Inglês

Global

Inglês