Apache Spark: como criar um processamento distribuído eficiente?

04-07-2019

Tempo de leitura: 3 minutos

Apache Spark: como criar um processamento distribuído eficiente?

No dia 30 de maio a XTech Community promoveu uma sessão hands-on para explicar à comunidade como criar um processamento distribuído eficiente com Apache Spark, demonstrando as suas vantagens em relação a Hadoop MapReduce.

Mas antes de mais, o que é Spark? É uma framework de processamento paralelo e distribuído, que nos últimos anos tem sido um dos projetos mais ativos na área de Big Data, tanto na utilização como contribuição pela comunidade open source.

As Funcionalidades de Apache Spark

Como principais vantagens em relação ao Hadoop MapReduce foram apresentadas a facilidade da escrita de jobs compostos por múltiplos passos, através da API de Spark baseada em programação funcional bem como a capacidade de guardar os dados intermédios em memória.

As funcionalidades oferecidas pelo Apache Spark foram introduzidas através das suas bibliotecas embutidas, implementadas por cima do Spark Core Engine, e pela possibilidade de usar bibliotecas externas disponíveis no repositório de Spark Packages.

Conceitos de Spark Core

Após à introdução, o foco da apresentação passou para os conceitos importantes de Spark Core, tendo-se explicado:

em que consiste o programa Driver escrito pelos developers,
a abstração de RDD que permite paralelizar a execução de operações sobre datasets distribuídos
os tipos de operações aplicáveis sobre os RDDs: actions e transformations.

Através de um exemplo de word count em Spark, demonstrou-se a facilidade da escrita de um primeiro job e quais os componentes envolvidos.

Foi também apresentado o resultado da execução do word count na Spark UI – interface web disponibilizada para monitorizar a execução de aplicações Spark, que permitiu explicar o significado das unidades de execução física em quais uma aplicação de Spark se divide: Job, Stage e Task.

Particionamento

O seguinte tópico abordado no meetup Spark Intro and Beyond foi o particionamento do Apache Spark. O número de partições de um RDD depende diretamente do particionamento dos dados na origem e de algumas possíveis parametrizações.

É importante perceber como funciona o particionamento uma vez que o número de partições de um RDD determina o paralelismo da execução das operações distribuídas e o seu controlo permite escrever aplicações mais eficientes, utilizando da melhor forma maneira os recursos do cluster.

Abordámos quatro técnicas para aumentar o paralelismo da execução:

Através do 2º parâmetro da função sc.textFile(“hdfs://…”, 120)
Aumentando o número de partições do tópico de Kafka lido
Através do 2º parâmetro das wide transformations, e.g rdd.reduceByKey(_ + _, 100)
Através da função rdd.repartition(120)

Redução do Shuffle Data

Por fim, mostrámos 3 técnicas que minimizam a quantidade de dados que são enviados entre dois Stages de um Job, que se designa por shuffle data, e permite aumentar a desempenho da aplicação.

Shuffles em Spark são muito pesados porque os dados são enviados em rede entre os Executors de Spark que residem em diferentes nós do cluster, e escritos para e lidos de disco pelos Executors do mesmo nó.

As técnicas apresentadas para reduzir shuffle data foram:

Uso de operações com pré-agregação, e.g reduceByKey vs groupByKey
Aplicar operações sobre RDDs previamente particionados e cached
Broadcast Joins

Conclusões sobre Apache Spark

No final, para além de serem esclarecidas algumas dúvidas sobre a apresentação, foram também discutidos vários pontos relevantes como:

Data locality e a integração do Spark em clusters Hadoop
Cenários nos quais faz sentido aplicar processamento em Spark
Possíveis razões de um Spark job ter um elevado tempo de execução e como diagnosticar através da Spark UI

Mais informações sobre o meetups da Xtech Community.

Categories:

Blog de Carreira em Tecnologia

Tags:

Comments are closed.

Comments

0
kaufen ozempic, ozempic preise, Ozempic ohne Rezept, ozempic abnehmen, ozempic nebenwirkungen

… [Trackback]

[…] Read More to that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
토렌트 다운

… [Trackback]

[…] Find More on that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
BMW 2023 ราคา

… [Trackback]

[…] Find More Information here on that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
LSM99 SLOT พนันออโต้ ฝาก-ถอน ออโต้

… [Trackback]

[…] Read More on that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
psychedelic drug paint

… [Trackback]

[…] Find More Information here on that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
lawyer phuket

… [Trackback]

[…] Info to that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
sidegra

… [Trackback]

[…] Read More Info here to that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
view website

… [Trackback]

[…] Find More here to that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
ชั้นวางสินค้าอุตสาหกรรม

… [Trackback]

[…] Information on that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
silicone penis

… [Trackback]

[…] Read More on to that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
links

… [Trackback]

[…] Find More Information here on that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
depression therapy san diego

… [Trackback]

[…] Here you can find 76730 more Info to that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]
0
ข่าวกีฬา

… [Trackback]

[…] There you can find 29212 additional Information on that Topic: careers.xpand-it.com/blog/apache-spark-como-criar-um-processamento-distribuido-eficiente/ […]

Anterior Seguinte

Cookie	Duração	Descrição
_GRECAPTCHA	5 meses 27 dias	Este cookie é configuirado pelo Google reCAPTCHA protege o nosso site contra ataques de spam nos formulários de contacto.
cli_user_preference	1 ano	Este cookie é definido pelo plugin de Consentimento de Cookies GDPR e é usado para armazenar se o usuário consentiu ou não com o uso de cookies. Ele não armazena dados pessoais.
cookielawinfo-checkbox-[CATEGORY]	1 ano	Este cookie é usado pelo plugin GDPR Cookie Consent guarda o consentimento do visitante da [CATEGORIA].
CookieLawInfoConsent	1 ano	CookieYes define este cookie para registar o estado predefinido do botao correspondente a categoria e o estado do CCPA. Funciona apenas em coordenacao com o cookie principal.
viewed_cookie_policy	1 ano	Este cookie usado pelo GDPR Cookie Consent plugin para guardar se o visitante consentiu ou não o use the cookies. Não guarda nenhum dado pessoal.

Cookie	Duração	Descrição
__adroll	1 ano 1 mes	Este cookie e definido pela AdRoll para identificar utilizadores em visitas e dispositivos diferentes. e utilizado em leiloes em tempo real para que os anunciantes possam exibir anuncios relevantes.
__adroll_fpc	1 ano	A AdRoll define este cookie para segmentar utilizadores com base no comportamento de navegacao.
__adroll_shared	1 ano 1 mes	A AdRoll define este cookie para recolher informacoes sobre utilizadores em diferentes websites para publicidade relevante.
__ar_v4	1 ano	Este cookie e definido sob o dominio DoubleClick para colocar anuncios que direcionam para o website nos resultados de pesquisa do Google e para monitorizar as taxas de conversao desses anuncios.
_clck	1 ano	A Microsoft Clarity define este cookie para reter o ID do Utilizador Clarity do navegador e definicoes exclusivas para aquele website. Isso garante que as acoes realizadas durante visitas subsequentes ao mesmo website sejam associadas ao mesmo ID do utilizador.
_clsk	1 dia	A Microsoft Clarity define este cookie para armazenar e consolidar as visualizacoes de pagina de um utilizador numa unica sessao de gravacao.
_fbp	3 meses	Este cookie é configurado pelo Facebook para exibir anúncios quando estiver no Facebook ou noutra plataforma digital onde é usada publicidade do Facebook
_ga	2 anos	Este cookie é configurado pelo Google Analytics, calcula dados de visitantes, sessões, campanhas e acompanha o uso do site. O cookie armazena informações anónimas atribuindo um número aleatório para distinguir visitantes únicos.
_ga_*	2 anos	Este cookie é configurado pelo Google Analytics é usado para distinguir os visitantes.
_gat_UA-*	1 minuto	Este cookie é configurado pelo Google Analytics, onde o elemento padrão no nome contém um número que identifica o site. É uma variação do cookie _gat usado para limitar a quantidade de dados registados pelo Google em sites de alto volume de tráfego.
_gcl_au	3 meses	O Google Tag Manager define o cookie para experimentar a eficiencia de publicidade em websites que utilizam os seus servicos.
_gid	1 dia	Este cookie é configurado pelo Google Analytics guarda um ID único que é usado para gerar dados estatísticos sobre como o visitante usa o site
_hjAbsolutesessaoInProgress	30 minutos	O Hotjar define este cookie para detetar a primeira visualizacao da pagina de um utilizador, que e um sinal Verdadeiro/Falso definido pelo cookie.
_hjFirstSeen	30 minutos	O Hotjar define este cookie para identificar a primeira sessao de um novo utilizador. Ele armazena o valor verdadeiro/falso, indicando se foi a primeira vez que o Hotjar viu este utilizador.
_hjIncludedInsessaoSample_*	2 minutos	O Hotjar define este cookie para determinar se um utilizador está incluído na amostragem de dados definida pelo limite diário de sessões do seu site.
_hjRecordingEnabled	nunca	O Hotjar define este cookie quando uma gravacao comeca e e lido quando o modulo de gravacao e inicializado, para verificar se o utilizador ja esta numa gravacao numa sessao especifica.
_hjRecordingLastActivity	nunca	O Hotjar define este cookie quando uma gravacao de utilizador comeca e quando os dados sao enviados atraves do WebSocket.
_hjsessao_*	30 minutos	O Hotjar define este cookie para garantir que os dados de visitas subsequentes ao mesmo site sejam atribuidos ao mesmo ID de utilizador, que persiste no ID de Utilizador Hotjar, unico para esse site.
_hjsessaoUser_*	1 ano	O Hotjar define este cookie para garantir que os dados de visitas subsequentes ao mesmo site sejam atribuidos ao mesmo ID de utilizador, que persiste no ID de Utilizador Hotjar, unico para esse site.
_te_	sessao	O Grupo Adroll regista um ID unico que identifica o dispositivo de um utilizador que regressa. O ID e utilizado para anuncios direcionados.
AnalyticsSyncHistory	1 mês	Este cookie é usado pelo Linkedin para guardar informação sobre quando ocorreu a sincronização com o cookie lms_analytics para os visitantes dos países selecionados.
anj	3 meses	A AppNexus define o cookie anj, que contem dados sobre se um ID de cookie esta sincronizado com parceiros.
ANONCHK	10 minutos	O cookie ANONCHK, definido pelo Bing, e usado para armazenar o ID da sessao do utilizador e verificar os cliques em anuncios no motor de busca Bing. O cookie ajuda na geracao de relatorios e personalizacao.
bcookie	2 anos	Este cookie é usado pelo Linkedin para guardar informação sobre quando ocorreu a sincronização com o cookie lms_analytics para os visitantes dos países selecionados.
CLID	1 ano	Usada pelo Microsoft Clarity, o objetivo desta cookie é gerar um mapa de calor e uma gravação da sessão.
CMID	1 ano	A Casale Media define este cookie para recolher informacoes sobre o comportamento do utilizador para publicidade direcionada.
CMPRO	3 meses	A CasaleMedia define o cookie CMPRO para rastreamento anonimo de utilizacao e publicidade direcionada.
CMPS	3 meses	A CasaleMedia define o cookie CMPS para rastreamento anonimo de utilizadores com base nas visitas ao website, exibindo anuncios direcionados.
fr	3 meses	Este cookie é usado pelo Facebook permite mostrar anúncios relevantes aos visitantes, analisando o comportamento do visitante noutros websites que possuem pixel do Facebook ou o plugin social do Facebook.
IDE	1 ano 24 dias	Os cookies Google DoubleClick IDE armazenam informacoes sobre como o utilizador utiliza o website para apresentar anuncios relevantes de acordo com o perfil do utilizador.
KRTBCOOKIE_*	3 meses	A Pubmatic define este cookie para registar um ID unico que identifica o dispositivo do utilizador em visitas posteriores a websites que utilizam a mesma rede de anuncios.
li_sugr	3 meses	O LinkedIn define este cookie para recolher dados sobre o comportamento do utilizador, otimizando o website e tornando os anuncios no website mais relevantes.
MR	7 dias	Este cookie, definido pelo Bing, e usado para recolher informacoes do utilizador para fins de analise.
msd365mkttr	2 anos	O Microsoft Dynamic 365 guarda informações sobre o comportamento do utilizador em vários sites. Esta informação é usada para otimizar a relevância do anúncio no site.
msd365mkttrs	sessão	Permite a utilização de um formulário específico, que envia os dados preenchidos pelo utilizador para o Microsoft Dynamic 365.
MUID	1 ano	Identifica os navegadores que visitam os sites da Microsoft. Estes cookies são usados para análise de sites e outras finalidades operacionais.
PugT	1 mes	A PubMatic define este cookie para verificar quando os cookies foram atualizados no navegador, a fim de limitar o numero de chamadas ao armazenamento de cookies no lado do servidor.
SM	sessao	O cookie da Microsoft Clarity define este cookie para sincronizar o MUID em dominios Microsoft.
SRM_B	1 ano 24 dias	Usado pela Microsoft Advertising como um ID unico para visitantes.
test_cookie	15 minutos	O doubleclick.net define este cookie para verificar se o navegador do utilizador suporta cookies.
UserMatchHistory	1 mês	Este cookie usado pelo LinkedIn para sincronizar os ID's dos Ads.
uuid2	3 meses	O cookie uuid2 e definido pela AppNexus e regista informacoes que ajudam a distinguir entre dispositivos e navegadores. Essas informacoes sao usadas para selecionar anuncios entregues pela plataforma e avaliar o desempenho do anuncio e seu pagamento atribuido.
VISITOR_PRIVACY_METADATA	5 meses 27 dias	Cookie utilizado pelo YouTube para rastrear e enriquecer as configurações de privacidade dos utilizadores na plataforma do YouTube.
YSC	sessão	Este cookie é usado pelo Youtube para guardar as visualizações de videos do youtube embebidos em páginas.
yt-remote-connected-devices	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.
yt-remote-device-id	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.
yt.innertube::nextId	nunca	Este cookie é usado pelo YouTube regista um ID único para guardar quais os vídeos que o visitante visualizou.
yt.innertube::requests	nunca	Used by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Duração	Descrição
_hjAbsoluteSessionInProgress	30 minutos	O Hotjar define este cookie para detetar a primeira sessao de visualizacao de pagina de um utilizador, o que e indicado por um valor Verdadeiro/Falso definido pelo cookie.
_icl_visitor_lang_js	1 dia	Este cookie é configurado pelo WPML WordPress plugin guarda o idioma redirecionado.
bscookie	2 anos	Este cookie é usado pelo LinkedIn guarda se o utlizador fez login com multi-factor
CONSENT	2 anos	Este coookie é usado pelo YouTube em videos embebidos e regista dados estatísticos anonimamente.
cxssh_status	3 meses 8 dias	Este cookie determina se o navegador aceita cookies.
lang	sessão	Este cookie é usado pelo LinkedIn para guardar a escolha do idioma do visitante no website linkedin.com.
li_gc	2 anos	Este cookie é usado pelo Linkedin para guardar o consentimento dos visitantes acerca do uso de cookies não essenciais.
lidc	1 dia	Este cookie é usado pelo LinkedIn para facilitar a escolha do datacenter.
VISITOR_INFO1_LIVE	5 meses 27 dias	Este cookie usado pelo YouTube para medir a largura de banda de modo a determinar se o visitante acede à nova ou à antiga interface.
wpml_browser_redirect_test	sessão	Este cookie é usado pelo WPML WordPress plugin é usado para testar se os cookies estão ativos no browser.
yt-remote-connected-devices	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.
yt-remote-device-id	nunca	Este cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.