<h1>Data lake: estratégia para análise de Big Data</h1>
Os data lakes se tornaram soluções populares para construir sistemas que atendam aos desafios impostos pelo big data.
Os <a href="https://www.igti.com.br/blog/carreira-ti-big-data/">projetos de big data </a>requerem a coleta de uma grande variedade de informações. Elas podem estar ilegíveis no momento de sua ingestão, o que torna necessário criar um repositório que permita analisar, transformar e desenvolver aplicações que extraiam valor dos dados. Os data lakes oferecem uma plataforma completa para provisionamento dessas soluções.
Neste artigo, veja as principais particularidades dos data lakes e como eles podem ser úteis no seu negócio.
<div id="toc_container" class="toc_white no_bullets">Sum&aacute;rio<ul class="toc_list"><li><a href="#Por-que-as-solucoes-atuais-nao-atendem-as-expectativas">1 Por que as soluções atuais não atendem às expectativas?</a></li><li><a href="#O-que-e-Data-Lake">2 O que é Data Lake?</a></li><li><a href="#Qual-a-diferenca-entre-data-Lake-e-data-warehouse">3 Qual a diferença entre data Lake é data warehouse?</a></li><li><a href="#Caracteristicas-de-um-data-lake">4 Características de um data lake</a></li><li><a href="#Por-que-e-uma-vantagem-estruturar-o-data-lake">5 Por que é uma vantagem estruturar o data lake?</a></li><li><a href="#Como-estruturar-um-data-lake">6 Como estruturar um data lake?</a></li></ul></div>
<h2>Por que as soluções atuais não atendem às expectativas?</h2>
O aumento do volume de dados coletados pelas empresas tornou ineficaz as soluções tradicionais de armazenamento dos dados. Visando tornar essa tarefa escalável e com garantias de desempenho, os data lakes têm se tornado um padrão industrial para armazenamento em big data.
<h2>O que é Data Lake?</h2>
O data lake é um contêiner de dados heterogêneo. Nele, podemos armazenar tabelas relacionais, não relacionais, documentos de textos e dados sem estrutura definida para interpretação automática (ex: imagens ou áudio). Ele provê um repositório centralizado baseado em nuvem que viabiliza o gerenciamento dos dados de maneira escalável e segura.
<img fetchpriority="high" decoding="async" class="wp-image-15172 aligncenter" src="http://www.cms.dtidigital.com.br/wp-content/uploads/2018/01/Data-Lake-1-1-300x169.png" alt="" width="430" height="242" srcset="https://www.cms.dtidigital.com.br/wp-content/uploads/2018/01/Data-Lake-1-1-300x169.png 300w, https://www.cms.dtidigital.com.br/wp-content/uploads/2018/01/Data-Lake-1-1-1024x576.png 1024w, https://www.cms.dtidigital.com.br/wp-content/uploads/2018/01/Data-Lake-1-1-768x432.png 768w, https://www.cms.dtidigital.com.br/wp-content/uploads/2018/01/Data-Lake-1-1-1536x864.png 1536w, https://www.cms.dtidigital.com.br/wp-content/uploads/2018/01/Data-Lake-1-1-2048x1152.png 2048w" sizes="(max-width: 430px) 100vw, 430px" />
<h2>Qual a diferença entre data Lake é data warehouse?</h2>
Os dados armazenados em um data lake não precisam ter um esquema definido no momento da ingestão. Os data lakes funcionam com o conceito schema-on-read. Nesse conceito, o esquema é definido sobre os dados no momento da leitura, e permite que um mesmo dado bruto seja especializado para diferentes aplicações sem perda de informação.
Essa premissa difere das tradicionais bases de dados e data warehouses, que adotam o conceito schema-on-write. Esse conceito exige um esquema pré-definido sobre o dado no momento da sua escrita na base. 
<iframe title="Como funciona um fluxo de data analytics?" width="1200" height="675" src="https://www.youtube.com/embed/S6EHbALNFcI?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
<h2>Características de um data lake</h2>
Em geral, a arquitetura de um data lake visa atender as seguintes características:
<ul>
<li>Ingestão e armazenamento de dados de diversas fontes;</li>
<li>Construção de catálogo de dados para facilitar a consulta da informação;</li>
<li>Provisionamento de camadas de segurança, monitoramento e otimização de desempenho;</li>
<li>Tratamento dos dados;</li>
<li>Transformação dos dados em formatos otimizados para consulta;</li>
<li>Consulta dos dados;</li>
<li>Exploração dos dados para as áreas de data analytics, data science e BI;</li>
<li>Construção de plataformas de visualização de dados;</li>
<li>Integração com ferramentas PaaS e on-premises para processamento dos dados;</li>
<li>Execução algoritmos sobre os dados sem restrições de padrão ou de tecnologia;</li>
<li>Criação de plataforma completa de produção para aplicações que exigem processamento em pipelines de dados;</li>
</ul>
<h2>Por que é uma vantagem estruturar o data lake?</h2>
Os data lakes provêm um repositório de dados que centraliza tarefas de gerenciamento, monitoramento e análise dos dados. Uma vez inserido no lake, o dado está disponível para análise por todos os times dentro da organização.
Isso diminui custos de transformação dos dados na sua ingestão e aumenta a agilidade dos analistas de dados para explorar e extrair novos insights dos dados.
<h2>Como estruturar um data lake?</h2>
Embora o conceito não seja novo, os data lakes tornaram-se populares há poucos anos com a explosão da computação em nuvem. Grandes players do mercado de nuvem como Amazon, Microsoft e Google proveem recursos para o provisionamento de infraestrutura e serviços que viabilizam a construção dessas plataformas .
Veja <a href="https://dtidigital.com.br/blog/analise-de-big-data-com-o-microsoft-azure-data-lake/">neste post</a>, um exemplo de análise de big data com data lake.
Aqui na dti, temos experiências em construção de soluções completas utilizando tecnologias AWS, Azure e GCP, além de soluções on-premises para processamento de dados. Quem sabe não temos a solução que você está precisando? Para saber mais, entre em contato com a gente!

Data lake – Estratégia para análise de Big Data

Desbloqueie o futuro do seu negócio

Confira outros artigos