Desmistificando iniciativas de dados

Por Victor Pontello|
Atualizado: Jul 2023 |
Publicado: Mai 2022

Muitas vezes, ao conversar sobre iniciativas de dados, seja com alguns clientes ou com família e amigos, tenho a impressão de que o entendimento sobre o que é trabalhar com dados e o que são e para que servem as iniciativas de dados fica longe do ideal. Na maioria dos casos há uma explicação e um taxativo: “ah, legal hein!” ou “hmm, bacana!”, que em outras palavras diz: “não tô entendendo nada que você está falando, mas soa interessante”. Sendo assim, vamos partir do pressuposto que as iniciativas de dados são basicamente tentativas de tornar os dados úteis e utilizar esses dados para gerar valor. What on earth is data science?. The quest for a useful definition | by Cassie Kozyrkov | Medium 

Dados e Inteligência Artificial (AI) nas iniciativas de dados

Primeiramente, não são todas as iniciativas de dados que são de AI. Sem dúvidas a inteligência artificial ou AI (do inglês) é uma área importante das iniciativas de dados, mas longe de ser tudo. Como esse é o tema do momento e extremamente relevante no nosso conceito, podemos começar com a desmistificação dele.  

AI é um conceito relativamente antigo, tão antigo quanto o primeiro computador. Tudo começou com a ideia e uma máquina tão inteligente, ou mais, que o homem. No início foram criados os knowledge systems, que nada mais eram do que a tentativa de codificação (na mão) do conhecimento de especialistas em um sistema. Porém logo descobriu-se que essa abordagem tinha sérios problemas de escalabilidade, devido à complexidade do conhecimento humano e à dificuldade de traduzir isso em um código lógico manualmente. 

Nesse contexto a ideia passou a ser a criação de algoritmos capazes de aprender com dados de um determinado domínio. Dessa forma não seria necessário que alguém codificasse esse conhecimento, o próprio algoritmo o faria. Assim surgiu em meados da década se 1950 o conceito de Machine Learning, ou ML O Algoritmo Mestre: Como a Busca Pelo Algoritmo de Machine Learning Definitivo Recriará Nosso Mundo : Domingos, Pedro: Livros — Amazon Brasil. 

Quer ver mais conteúdos como esse?

Quando a ideia encontra a tecnologia 

O Machine Learning, apesar de antigo não ganhou tanta força inicialmente. Ele estagnou na baixa capacidade computacional da época e dificuldade de obtenção de dados relevantes. Entretanto, esses empecilhos foram com o tempo diminuindo. A capacidade computacional de hoje é infinitamente maior que a da época em que o conceito de ML surgiu e hoje temos petabytes e petabytes de dados disponíveis em um cenário de Big Data Apache Spark: Uma breve introdução – dti (dtidigital.com.br) 

Assim, o Machine Learning ganhou muita força nos últimos anos. Hoje, se mostra como uma excelente ferramenta para analisar e gerar valor de quantidades enormes de dados, o que seria inviável para a capacidade cognitiva do ser humano. Dessa forma, hoje AI e ML são conceitos quase sobrepostos e vivem um grande hype, mas no fim são ferramentas para iniciativas de dados e estão longe de ser resposta para todos os problemas 10 Key Technologies that enable Big Data Analytics for businesses | by Maruti Techlabs | Towards Data Science. 

A chave para as iniciativas de dados: ferramenta certa para o problema certo 

Afinal, a geração de valor se dá através da capacidade de responder a perguntas de negócio com o conhecimento extraído dos dados. Essa pergunta pode ser, por exemplo, qual o faturamento da empresa no Natal passado, qual a previsão para esse faturamento nesse ano, quais produtos são os mais vendidos, qual tipo de produto a empresa deveria lançar, quais são os melhores clientes e por que clientes cancelam sua assinatura conosco? Para que essas perguntas possam ser devidamente respondidas os profissionais da área de dados têm uma “caixa de ferramentas” que contém desde a estatística, DataViz [Visualização de dados: Como transmitir informações de forma eficaz dti (dtidigital.com.br)], passando pela computação, até o Machine Learning.  

Não existe uma “bala de prata” que resolve todos os problemas e para cada objetivo existe uma ferramenta mais adequada. Saber qual ferramenta é a mais adequada para cada tipo de problema na área de dados é determinante para o sucesso da iniciativa. Da mesma forma, insistir com a ferramenta errada pode ser tão doloroso quanto tentar bater um prego com uma chave de fenda. 

Entendendo Analytics em uma consulta médica 

Além disso, a geração de valor através dos dados demanda das organizações uma maturidade analítica que nem sempre é observada. Existem diferentes níveis de aplicação do chamado “Analytics” e com ele diferentes necessidades. Pensando em uma consulta médica, o primeiro nível é o da análise descritiva. Ela representa o início da consulta, em que o problema está sendo descrito: descrição dos sintomas, qual a temperatura corporal, pressão sanguínea etc. Feito isso, seguimos para o segundo nível, que é o da análise diagnóstica. Nesse nível, o médico junta todas as “pistas” em um diagnóstico e consegue explicar o porquê da existência dos sintomas com base na doença diagnosticada e seu conhecimento sobre ela.  

Sendo assim, vêm as perguntas como: quais sintomas tendem a aparecer ou quanto tempo vai demorar para que haja uma melhora? Essas são perguntas respondidas pela análise preditiva, ou o terceiro nível analítico. Por fim, há o tratamento em si, ou a análise prescritiva. Quais remédios comprar, como usar, o que fazer dado o que foi descrito, diagnosticado e previsto.
The 4 Types of Data Analytics – KDnuggets 

As iniciativas de dados nos diversos contextos das organizações 

Entretanto é importante ressaltar que apesar da atividade de Analytics na empresa ser evolutiva, existe um contexto extremamente heterogêneo. Isto é, é possível que em cada área da empresa um nível de maturidade analítica seja aplicável. Isso significa que é possível uma análise preditiva e prescritiva em situações pontuais mesmo que a empresa ainda esteja no nível da análise descritiva. Dessa forma, as oportunidades de aplicação de Advanced Analytics, Data Science e Machine Learning dentro de uma organização seguem um padrão muito mais vertical que horizontal, o que facilita a geração de valor rápida e focada em uma dor específica enquanto a empresa desenvolve sua cultura data-driven e sua infraestrutura de dados
Data science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados | Amazon.com.br. 

Como começar

Porém, há uma lei que deve ser sempre seguida. Não adianta a organização querer fazer uma análise prescritiva de um fenômeno complexo do negócio se nem mesmo os dados organizados, limpos e disponibilizados para uma análise descritiva ele tem. A qualidade dos dados é primordial para a geração de valor de qualquer iniciativa de dados. E, muitas vezes, os projetos começam organizando a casa. Pondo ordem nos dados e criando uma infraestrutura que serve como base para a geração de valor. Assim nascem os Data Warehouses, Data Lakes, Data Puddles, Data Lakehouses etc

Uma vez disponibilizados os dados, as iniciativas de Analytics podem acontecer livremente, seja através de Business Intelligence, ao levar os insights extraídos dos dados às pessoas tomadoras de decisão; ou através de Deep Learning, ao analisar imagens e reconhecer o produto em publicações de redes sociais
Data Science: Como o Big Data se relaciona com a metodologia ágil – dti (dtidigital.com.br). 

“Dados são o novo petróleo”, mas por que? 

Podemos finalizar essa desmistificação utilizando outra analogia. A geração de valor com base nos dados ocorre como em uma refinaria de petróleo. A gasolina, betume, querosene e todos os derivados do petróleo são comercializados e geram valor. Entretanto,  só são possíveis de serem fabricados através do fornecimento de petróleo de qualidade. Da mesma forma acontece com os dados. Deep Learning, Machine Learning, Business Intelligence, Data Analytics e Data Science são equivalentes aos derivados do petróleo obtidos na refinaria. São o que geram o lucro, mas só são possíveis através do fornecimento de dados de qualidade. Talvez não por coincidência ouve-se tanto que os dados são o novo petróleo.

Quer saber mais?