Data lake – Estratégia para análise de Big Data

Por Pablo Goulart|
Atualizado: Jul 2023 |
Publicado: Jan 2018

Data lake: estratégia para análise de Big Data

Os data lakes se tornaram soluções populares para construir sistemas que atendam aos desafios impostos pelo big data.

Os projetos de big data requerem a coleta de uma grande variedade de informações. Elas podem estar ilegíveis no momento de sua ingestão, o que torna necessário criar um repositório que permita analisar, transformar e desenvolver aplicações que extraiam valor dos dados. Os data lakes oferecem uma plataforma completa para provisionamento dessas soluções.

Neste artigo, veja as principais particularidades dos data lakes e como eles podem ser úteis no seu negócio.

Por que as soluções atuais não atendem às expectativas?

O aumento do volume de dados coletados pelas empresas tornou ineficaz as soluções tradicionais de armazenamento dos dados. Visando tornar essa tarefa escalável e com garantias de desempenho, os data lakes têm se tornado um padrão industrial para armazenamento em big data.

Quer ver mais conteúdos como esse?

O que é Data Lake?

O data lake é um contêiner de dados heterogêneo. Nele, podemos armazenar tabelas relacionais, não relacionais, documentos de textos e dados sem estrutura definida para interpretação automática (ex: imagens ou áudio). Ele provê um repositório centralizado baseado em nuvem que viabiliza o gerenciamento dos dados de maneira escalável e segura.

Qual a diferença entre data Lake é data warehouse?

Os dados armazenados em um data lake não precisam ter um esquema definido no momento da ingestão. Os data lakes funcionam com o conceito schema-on-read. Nesse conceito, o esquema é definido sobre os dados no momento da leitura, e permite que um mesmo dado bruto seja especializado para diferentes aplicações sem perda de informação.

Essa premissa difere das tradicionais bases de dados e data warehouses, que adotam o conceito schema-on-write. Esse conceito exige um esquema pré-definido sobre o dado no momento da sua escrita na base. 

Características de um data lake

Em geral, a arquitetura de um data lake visa atender as seguintes características:

  • Ingestão e armazenamento de dados de diversas fontes;
  • Construção de catálogo de dados para facilitar a consulta da informação;
  • Provisionamento de camadas de segurança, monitoramento e otimização de desempenho;
  • Tratamento dos dados;
  • Transformação dos dados em formatos otimizados para consulta;
  • Consulta dos dados;
  • Exploração dos dados para as áreas de data analytics, data science e BI;
  • Construção de plataformas de visualização de dados;
  • Integração com ferramentas PaaS e on-premises para processamento dos dados;
  • Execução algoritmos sobre os dados sem restrições de padrão ou de tecnologia;
  • Criação de plataforma completa de produção para aplicações que exigem processamento em pipelines de dados;

Por que é uma vantagem estruturar o data lake?

Os data lakes provêm um repositório de dados que centraliza tarefas de gerenciamento, monitoramento e análise dos dados. Uma vez inserido no lake, o dado está disponível para análise por todos os times dentro da organização.

Isso diminui custos de transformação dos dados na sua ingestão e aumenta a agilidade dos analistas de dados para explorar e extrair novos insights dos dados.

Como estruturar um data lake?

Embora o conceito não seja novo, os data lakes tornaram-se populares há poucos anos com a explosão da computação em nuvem. Grandes players do mercado de nuvem como Amazon, Microsoft e Google proveem recursos para o provisionamento de infraestrutura e serviços que viabilizam a construção dessas plataformas .

Veja neste post, um exemplo de análise de big data com data lake.

Aqui na dti, temos experiências em construção de soluções completas utilizando tecnologias AWS, Azure e GCP, além de soluções on-premises para processamento de dados. Quem sabe não temos a solução que você está precisando? Para saber mais, entre em contato com a gente!

Quer saber mais?