Dados não estruturados: introdução
Share on facebook
Share on twitter
Share on linkedin

Dados não estruturados: introdução

dti digital

dti digital

Um dos nossos colaboradores especializados!

Atualmente, dados não estruturados representam mais de 80% dos dados existentes e 95% das empresas priorizam a análise de dados estruturados. Para começar um artigo falando do porque você deveria dar mais atenção aos seus dados, acredito que a melhor forma de convencimento seria com um dado impactante. 

Nesse artigo, o objetivo é explicar o que são dados não estruturados, as vantagens de lidar com esse tipo de dado, hipotetizar o porquê não é uma área tão explorada ainda, e também dar exemplos de como lidar com esse tipo de dados (com exemplos de projetos reais).

O que são dados não estruturados?

Dados não estruturados são todos aqueles que não consistem em tabelas (que são dados estruturados, como csv, excel ou alguma tabela de banco de dados) e também não são dados semi-estruturados (json, xml e yaml). Portanto, relatórios em pdf, e-mails, páginas na internet em html, áudios do Whatsapp e fotos são todos exemplos de dados não estruturados.

organograma dados estruturados, semi estruturados e não estruturados

Acredito que agora fica óbvio que esses tipos têm quantidade muito maior que os dados estruturados – já que fazem muito mais parte do nosso dia a dia do que tabelas csv. Porém, atualmente, muitas iniciativas de dados consistem, principalmente, em produtos de Business Intelligence (dashboards, relatórios analíticos, resumos, painéis gráficos) baseados em dados já estruturados – ou alimentados por algum Data Warehouse

Dados não estruturados, diferentemente dos estruturados, podem ser armazenados em estruturas chamadas Data Lake. Essas estruturas podem comportar tanto dados estruturados como dados não estruturados. Embora exista essa estrutura, e os dados sejam fonte preciosa de informação, muitas vezes, estes ficam de lado por alguns motivos que serão explorados abaixo.

Por que dados não estruturados são despriorizados?

Primeiramente, o entendimento de um dado tabular (ou até semi-estruturado) é muito mais simples do que um dado não estruturado – e, portanto, leva menos tempo para gerar valor. Para isso ficar mais claro, analise os três exemplos (fictícios) abaixo e tente encontrar quatro nomes de lugares em cada um

Dados não estruturados e dados estruturados na prática

NomePaísIdade
MariaBrasil33
MiguelMéxico45
JohnInglaterra21
LouisFrança14

 

{

             “pacotes-disponíveis”: [

                      {

                                   “disponível”: “True”,

                                   “dias”: 5,

                                   “local”: “Chile”,

                                   “preço-por-pessoa”: 3000

                       }, 

                       {

                                    “disponível”: “False”,

                                    “dias”: 6,

                                    “local”: “Argentina”,

                                    “preço-por-pessoa”: 1000

                        }, 

                        {

                                    “disponível”: “True”,

                                    “dias”: 4,

                                    “local”: “Bolívia”,

                                    “preço-por-pessoa”: 2500

                        }, 

                        {

                                    “disponível”: “True”,

                                    “dias”: 10,

                                    “local”: “Itália”,

                                    “preço-por-pessoa”: 3000

                         }

              ]

 }

 

Boa tarde, 

Tudo bem? Acredito que houve um engano quanto à rota que o carro direcionando o Governador deveria seguir. O Governador João da Silva precisa visitar urgentemente as cidades do Sul de Minas Gerais, considerando que tem reuniões com os Prefeitos. Por isso, não faria sentido ele seguir em direção à Uberlândia, e sim em direção a Poços de Caldas depois do dia 10 de março de 2021. 

Importante relembrar que as outras cidades a serem visitadas são Lavras (11 de março) e Varginha (13 de março).

Att.

 

Compreendendo conceitos

O primeiro é um dado estruturado (tabela), o segundo é um dado semi-estruturado (nesse caso, json) e o terceiro é um dado não estruturado (corpo de email). Acredito que fica mais claro que, em um cenário onde Big Data é presente, a dificuldade de entender – rápido – múltiplos tipos de dados não estruturados, sendo um processo mais lento e, consequentemente, mais caro. 

Outro ponto que faz essa análise/extração de dados mais difícil é a falta de pessoas especializadas. Isso porque atualmente já existe grande falta de pessoas para suprir a área de análise de dados estruturados. No caso da análise dos dados não estruturados, a pessoa deve ter habilidades para saber aplicar análise de texto (processamento de linguagem natural – PLN ou NLP, análise de sentimento), análise de imagem e análise de áudio. 

Com isso, entramos em um cenário com muita informação valiosa presente em diversos contextos. Entretanto, , porém, em um mundo imediatista que exige entrega de valor rápida achando que é a única forma de saber que está compensando o investimento. Além disso, necessitando de muitas habilidades que demoram muito tempo para uma pessoa construir para efetivamente trazer valor ao cliente.

Benefícios dos dados não estruturados

Exemplos trarão mais explicitamente quais as vantagens de lidar com dados não estruturados. O primeiro é sobre análise de texto – como exemplo o corpo de email da seção anterior. Com algoritmos de Machine Learning e Processamento de Linguagem Natural, é possível verificar que existem localizações sendo citadas no texto, nomes próprios, e que a linguagem é português. Além disso, análises de sentimento podem ser feitas e pode ser visto que existe uma urgência e estresse na voz do locutor ao emitir sua mensagem. Mesmo que seja óbvio para nós humanos, é algo muito difícil de ser detectado por máquinas.

Um segundo exemplo é sobre algum áudio – que seja essa mesma mensagem do email, porém falada. O principal foco de algoritmos de áudio é fracionar ao máximo o áudio, ou seja, as ondas, até o nível de fonemas individuais (por exemplo o som que você emite quando fala somente “à”), e fazer uma combinação da forma escrita desses fonemas para transcrever este áudio. Nesse caso, algumas características podem ser extraídas do texto que foi transcrito.

Já sobre imagens, podem ser extraídas inúmeras características do conjunto de pixels (o algoritmo verifica cada pixel da imagem para entender o seu conteúdo como um todo). Um exemplo é atribuir localização à imagem, como uma foto do Cristo Redentor seria atribuída a cidade do Rio de Janeiro. Outro exemplo é reconhecimento facial de pessoas, ou reconhecimento das expressões faciais e o que aquelas pessoas estão demonstrando sentir na foto em questão. 

Esses exemplos são somente alguns cenários em que cada um desses dados – existem mais tipos de dados não estruturados – podem ser analisados. Claramente, dados não estruturados são fontes que podem ser utilizadas de muitas formas a agregar valor, de forma a entender contextos melhor e até de forma mais personalizada.

Como lidar com esses dados não estruturados

Como já foi citado, são necessários anos para cada especialista – em provavelmente um time – criar suas habilidades de forma que consigam aplicar algoritmos complexos para análise desses dados com alta qualidade. 

Porém, existe hoje em dia disponibilização de serviços de nuvem que visam, exclusivamente, tratar dados não estruturados. Análise de texto – como busca, análise de sentimento, áudio, vídeos e imagens se tornaram algo muito mais tangível com APIs disponibilizadas pela Microsoft e Google, por exemplo. 

Um caso real aplicado na dti digital foi o caso de uma empresa, que precisava de um sistema de busca mais acurado em documentos específicos – com extração de nomes próprios. A dti criou uma solução em que, automaticamente, esses dados eram extraídos da fonte, transformados e a, a partir da API do Azure Cognitive Search, eram buscados por relevância e eram extraídos os nomes pessoais dos documentos. 

Com isso, foram aplicados conceitos difíceis, extraídos dados essenciais e gerado muito valor para o cliente!

Tem interesse em fazer parte de um time que fomenta o aprendizado constante e te dá a chance de atuar diretamente na cultura ágil e com base no Manifesto Ágil? Então acesse nossa página de carreiras, escolha a vaga que mais se encaixa no seu perfil e venha ser dti!

Por: Aline Guimarães

Preencha seus dados para receber nossa newsletter!

Ficou com dúvidas?

contato@dtidigital.com.br
R. Antônio de Albuquerque, 330 – 14° andar
Savassi, Belo Horizonte – MG, 30112-010

Cuidado

Nós utilizamos cookies e outras tecnologias semelhantes para analisar sua experiência no site e personalizar conteúdos e anúncios durante sua navegação. Ao navegar pelo site, você autoriza a DTI Digital a realizar tal monitoramento. Conheça nossa Política de Privacidade.

you are being redirected to a page in portuguese, do you want to continue?