Se você trabalha ou pretende trabalhar com Big Data é possível que você já conheça o Spark ou pelo menos já tenha ouvido falar sobre. Independente de qual o seu caso, neste artigo vamos explicar do que se trata Spark, como ele funciona e descobrir se ele pode te ajudar!

Se você trabalha ou pretende trabalhar com Big Data é possível que você já conheça o Spark ou pelo menos já tenha ouvido falar sobre. Independente de qual o seu caso, neste artigo vamos explicar do que se trata Spark, como ele funciona e descobrir se ele pode te ajudar!
<div id="toc_container" class="toc_white no_bullets">Sum&aacute;rio<ul class="toc_list"><li><a href="#Historia-do-Apache-Spark">1 História do Apache Spark</a></li><li><a href="#Arquitetura-basica-do-Spark">2 Arquitetura básica do Spark</a><ul><li><a href="#Low-Level-API8217s">2.1 Low Level API&#8217;s</a></li><li><a href="#Structured-API8217s">2.2 Structured API&#8217;s</a></li><li><a href="#High-Level">2.3 High Level</a></li></ul></li><li><a href="#Pra-quem-e-o-Spark">3 Pra quem é o Spark?</a></li></ul></div>
<h2 dir="auto">História do Apache Spark</h2>
Lidar com grande volume de dados costumava ser uma tarefa praticamente impossível a pouco mais de uma década. Isso ocorria em função de que não tínhamos tanto poder computacional e plataformas de processamento paralelo ainda não eram realidades. Entretanto, com a criação do <a href="https://www.cms.dtidigital.com.br/blog/hadoop/" rel="nofollow">Hadoop</a> surgiu uma ferramenta que resolvia os 3 grandes problemas da computação paralela sendo:
<ul dir="auto">
<li>A paralelização (como performar subsets simultaneamente)</li>
<li>Distribuição (como distribuir os dados)</li>
<li>E tolerância a falha (como lidar falha de componente)</li>
</ul>
A Apache Software Foundation assumiu a primeira versão do Spark lançada pela AmpLab em 2009, após o Hadoop ter dominado o mercado de Big Data por algum tempo. No entanto, o Hadoop enfrentou vários problemas que não puderam ser resolvidos. Como resultado, várias ferramentas foram criadas com base nele, mas sem um padrão, o que tornou sua utilização difícil.
Segundo o criador do Spark, Matei Zaharia, podemos defini-lo como uma ferramenta computação paralela que generaliza o modelo de programação do Map-Reduce, aproveitando assim todos as vantagens já implementadas pelo Hadoop e desenvolvendo melhorias como veremos a seguir.
<h2 dir="auto"><a id="user-content-arquitetura-básica" class="anchor" href="https://github.com/vitor-o-s/Projetos-EngDados/blob/main/ApacheSparkUmabreveintrodu%C3%A7%C3%A3o.md#arquitetura-b%C3%A1sica" aria-hidden="true"></a>Arquitetura básica do Spark</h2>
Podemos entender o Spark como uma evolução do Hadoop e do paradigma de programação Map-Reduce. Ele pode ser de 10 a 100 vezes mais rápido graças ao seu uso eficiente da memória que não persiste os dados em discos enquanto está realizando seu processamento.
O Spark atualmente é criado em Scala rodando sobre JVM — Java Virtual Machine. Contudo, podemos usar 5 linguagens para desenvolver: Scala, Java, SQL, Python, R.
Além disso, ao ser desenvolvido, uma grande preocupação foi a criação de uma API que conseguisse gerenciar todo o paralelismo. O objetivo é que o desenvolver final possa ter a impressão de estar trabalhando apenas com um computador e pudesse de fato focar esforços em suas tarefas seja de transformação, analise ou ainda outras.
É possível ter uma ideia de como o Spark está organizado pelo seguinte diagrama, por exemplo:
<a href="https://github.com/vitor-o-s/Projetos-EngDados/blob/main/SparkArchitecture.png" target="_blank" rel="noopener noreferrer"><img fetchpriority="high" decoding="async" class="aligncenter" src="https://github.com/vitor-o-s/Projetos-EngDados/raw/main/SparkArchitecture.png" alt="Camadas de arquitetura do Apache Spark" width="534" height="352" /></a>
<h3 dir="auto"><a id="user-content-low-level-apis" class="anchor" href="https://github.com/vitor-o-s/Projetos-EngDados/blob/main/ApacheSparkUmabreveintrodu%C3%A7%C3%A3o.md#low-level-apis" aria-hidden="true"></a>Low Level API&#8217;s</h3>
Este nível contém as funcionalidades básicas para rodar jobs e outras funcionalidades requeridas pelos demais componentes. É nela também que definimos o conceito de <a href="https://databricks.com/glossary/what-is-rdd">RDD</a> — Resilient distributed dataset, uma abstração da coleção de dados distribuída.
Outras funções importantes desta camada são o gerenciamento de segurança, rede, agendamento e ainda o acesso logico a sistemas de arquivos HDFS, GlusterFS, Amz S3 e demais.
<h3 dir="auto"><a id="user-content-structured-apis" class="anchor" href="https://github.com/vitor-o-s/Projetos-EngDados/blob/main/ApacheSparkUmabreveintrodu%C3%A7%C3%A3o.md#structured-apis" aria-hidden="true"></a>Structured API&#8217;s</h3>
Já o nível de Structured API trabalha a manipulação dos dados seja por meio dos DataSets ou dos DataFrames. Eles podem ser lidos de diversos formatos como Hive, Parquet, JSON e outros ainda. A diferença entre os dois -DataSets e DataFrames- está na tipagem que será pré-definida e checada no caso dos DataSets, enquanto no DataFrame somente haverá uma checagem entre as linhas. Utilizando o SparkSQL (API que nos permite escrever querys em SQL), podemos manipular os dados da forma como desejamos. Além disso, com a ajuda do Catalyst possuímos um otimizador de query trazendo mais eficácia.
<h3 dir="auto"><a id="user-content-high-level" class="anchor" href="https://github.com/vitor-o-s/Projetos-EngDados/blob/main/ApacheSparkUmabreveintrodu%C3%A7%C3%A3o.md#high-level" aria-hidden="true"></a>High Level</h3>
No nível mais alto, temos o ecossistema Spark com suas diversas bibliotecas incluído Spark Streaming, Spark MLlib e Spark GraphX. São responsáveis respectivamente por cuidar de ingestão em streaming (seja por HDFS, Kafka&#8230;) e os processos ao redor como recuperação de falhas; criar e validar modelos clássicos de machine learning; e por último lidar com grafos e seus algoritmos.
<h2 dir="auto"><a id="user-content-pra-quem-é-o-spark" class="anchor" href="https://github.com/vitor-o-s/Projetos-EngDados/blob/main/ApacheSparkUmabreveintrodu%C3%A7%C3%A3o.md#pra-quem-%C3%A9-o-spark" aria-hidden="true"></a>Pra quem é o Spark?</h2>
Graças ao seu suporte para 5 linguagens de desenvolvimento a utilização do Spark pode ser de fácil adoção por todo o time de dados. Vejamos com mais detalhes:
<ul dir="auto">
<li>Engenheiro de Dados: Poderá utilizar o Spark para o processo de extração, transformação e carga dos dados (ETL/ELT/EL), sendo que os processos podem ser em batch ou streaming;</li>
<li>Cientistas de Dados: Através de bibliotecas como SparkML ou Spark GraphX o profissional poderá aplicar modelos de ML e lidar com problemas de grafos;</li>
<li>Analistas de Dados: Poderá gerar relatórios e insights sobre o volume de dados de forma otimizada graças ao Catalyst.</li>
</ul>
Com o uso combinado entre Spark e <a href="https://databricks.com/#" rel="nofollow">Databricks</a>, o desenvolvimento de programas fica ainda mais simples podendo ainda ser integrado com grandes serviços de nuvem como Azure, AWS e GCP.
<a href="https://osagilistas.com/podcast/104-data-science-na-pratica/"><img decoding="async" class="size-medium wp-image-20755 aligncenter" src="http://www.cms.dtidigital.com.br/wp-content/uploads/2022/01/datasciencenapratica-298x300.png" alt="" width="298" height="300" srcset="https://www.cms.dtidigital.com.br/wp-content/uploads/2022/01/datasciencenapratica-298x300.png 298w, https://www.cms.dtidigital.com.br/wp-content/uploads/2022/01/datasciencenapratica.png 387w" sizes="(max-width: 298px) 100vw, 298px" /></a>
Quer descobrir se o Spark pode ser útil para você? Então fale com a DTI. Estamos abertos a tirar dúvidas e criar uma solução que gere valor ao seu negócio! Além disso, podemos mostrar como o agilismo e a transformação digital pode facilitar processos dentro da sua empresa!
No podcast <a href="https://osagilistas.com/" rel="nofollow">Os Agilistas</a> você confere de perto a percepção DTI sobre o agilismo e como aplicá-lo de maneira eficiente em uma equipe. Te esperamos lá! E se você tem interesse em fazer parte de um time que entende de cultura ágil e te dá a oportunidade de trabalhar com Spark, na prática, <a href="https://www.cms.dtidigital.com.br/venha-ser-dti/" rel="nofollow">se inscreva em nossa página de carreiras</a> e venha ser DTI!
Por: Vitor Oliveira dos Santos

Apache Spark: Uma breve introdução

One-stop shop em tecnologia

Confira outros artigos