Proxxima
Meio & Mensagem

Data lake: como orientar decisões via dados?

Buscar

Notícias

Publicidade

Data lake: como orientar decisões via dados?

A análise correta de repositórios responsáveis por unificar e centralizar informações de diferentes fontes auxilia no marketing digital

Victória Navarro
16 de junho de 2021 - 6h00

O sistema data lake é um repositório responsável por unificar e centralizar dados de diferentes fontes. O custo baixo traz a vantagem de armazenar informações em seu estado bruto, já que ainda não foram processadas para uma finalidade específica. Os dados em um data lake são definidos só depois de serem consultados. Assim, esses sistemas são escaláveis por suportarem volumes gigantescos de informações e por permitirem que as organizações realizem análises quando quiserem, por meio de modelagem preditiva ou ferramentas analíticas mais avançadas.

 

Metade das companhias, no Brasil, não confia nas análises de dados por conta do nível de imprecisão e dificuldade no entendimento dessas informações, segundo pesquisa da Experian (Crédito: ThisIsEngineering/Pexels)

O uso de data lakes não é novo no mercado, diz Talita Bieliauskas, diretora de martech e strategy na empresa de marketing digital GhFly. O termo foi criado por James Dixon, CTO do Pentaho, software de código aberto para inteligência empresarial. “Surgiram, há mais de dez anos, com o intuito de solucionar a necessidade de armazenamento de dados de baixo custo e escalável. Também permitiam que as organizações armazenassem, facilmente, todos os diferentes tipos de conjunto de informações estruturadas ou não de diversas fontes. Adicionalmente, esses sistemas de arquivos contavam com frameworks de processamento de dados distribuídos, que permitia às organizações analisá-los para tomada de decisões”, complementa Daniel Gandolfi, data hub director da Cadastra, focada em comunicação digital.

Porém, com a transformação digital, os data lakes tomaram maior proporção no mercado. O uso de dados está muito em alta, principalmente, no marketing digital, afirma Talita: “Isso, quando falamos em assertividade de mídia, em entendimento da jornada do usuário, em omnicalidades e múltiplos devices”. Todas essas ações geram, constantemente, dados, e, com isso, amplia-se a necessidade do big data, área que estuda como tratar, analisar e obter informações, a partir de conjuntos de dados.

Segundo a Pesquisa Global de Gestão de Dados 2020, realizada pela Experian, metade das companhias, no Brasil, não confia totalmente nas análises por conta do nível de imprecisão e dificuldade no entendimento dessas informações. Por isso, os custos decorrentes da má gestão dos dados são problemas para 87% das organizações. O desafio pode ser ainda maior: levantamento da ASG Technologies Group mostra que quase dois terços dos profissionais (63%) confirmaram o uso de dados imprecisos, desatualizados ou ruins como fonte de informação para a tomada de decisão.

Estrutura e maturidade
Os dados podem ser estruturados — advindos de bancos relacionais — , semi-estruturados — como Comma-separated Values (CSV), logs, Extensible Markup Language (XML) e JavaScript Object Notation (JSON) — ou não estruturados — como e-mails, PDFs, imagens, vídeos e áudios — e podem ser coletados de várias fontes, dentro da organização. “Quanto mais fontes, mais informações podem ser complementadas e utilizadas em análises”, diz Gandolfi, da Cadastra. A arquitetura do data lake permite escalabilidade massiva, que pode chegar aos exabytes. Isso é importante, porque, ao criar um repositório, é comum não saber o volume de dados que será armazenado.

Dessa forma, é possível extrair e explorar dados da empresa, além de fazer o compartilhamento e a referência cruzada, que, posteriormente, pode ajudar a descobrir novos insights. A democratização do acesso à informação, acrescenta o profissional da Cadastra, é outro benefício obtido por marcas que implementam projeto de data lakes: “O dado passa a estar disponível para mais pessoas, de forma mais veloz e precisa, qualificando o processo de tomada de decisão”.

No marketing digital
A organização dos dados é o que alavanca a transformação digital dos negócios, diz Talita, da GhFly. Os avanços que giram em torno do data lake para o mercado de informações são em torno de produtividade, ganho de escala, maior assertividade em análise e insights na utilização destes dados. “Com o data driven marketing ganhando mais força, um único repositório de dados, dentro da empresa, para que todos as informações brutas estejam disponíveis, trará  grande velocidade para tomada de decisão, desenvolvimento de produtos, bem como estratégias mais assertivas e preditivas, por meio de técnicas de machine learning”, explica.

De acordo com Gandolfi, em empresa com projeto de data lake executado, é possível identificar e analisar o comportamento de clientes e consumidores e seus padrões de compras, segmentá-los de acordo com seu perfil demográfico ou transacional, antecipar possíveis cancelamentos, incentivar upsell, cross sell, evitar cancelamentos, utilizando, em muitos casos, inteligência artificial, mas, sempre, se beneficiando da desfragmentação de dados, que possuem diversas origens.

Entretanto, destaca Talita, é crucial lembrar que, no data lake, os dados estão brutos, como um grande repositório, e, para as estratégias de marketing, as informações precisam ser tratadas, modeladas e que se tornem data insights ou dados acionáveis para a compra de mídia, com o uso de outros conceitos e tecnologias, como martechs e adtechs.

O conceito martech (marketing technology ou tecnologia de marketing) permeia startups ou soluções que relacionam tecnologia ao marketing. São compostas por todas as ferramentas, plataformas, processos e aplicações que ajudam a otimizar o contato direto da empresa com o cliente, atuando com base, por exemplo, em lista de e-mails, telefones e gestão das redes sociais. A adtech (advertising technology ou tecnologia de publicidade), por sua vez, abrange startups e serviços que usam tecnologia para servir conteúdo com mais inteligência. Estão vinculadas aos esforços na busca de leads e novos consumidores. É um trabalho voltado à construção de campanhas específicas, com o auxílio da mídia paga e análise de dados gerados por ações, como impressões, aquisições e visualizações.

Segundo o diretor da Cadastra, quando existe um data lake, a qualidade de insumos para construção das audiências, trabalhadas pelas martechs, ou de perfis, buscados pelas adtechs, é exponencializada pelo volume de dados. “Isso que abastece essa relação ou prospecção, aumentando, significativamente, o grau de precisão e, consequentemente, conversão e sucesso, justamente, por ter sido alimentado com dados do próprio contexto alvo, tendo como origem um data lake. Sem dados com origem em lake, as estratégias se resumem a premissas determinísticas, pesquisas qualitativas e, muitas vezes, opiniões pessoais”, explica.

As dificuldades
No momento, para Talita, a maior dificuldade em se trabalhar com data lake está em encontrar profissionais capacitados para realizar a captação dos dados, de forma correta, para a criação e alimentação de um repositório. “Por mais simples que seja o conceito, demanda conhecimento técnico, sendo necessário garantir a saúde do seu data lake, para também evitar gastos desnecessários para recuperá-lo. Não se trata apenas da escolha de ferramenta correta, é necessário intenso trabalho técnico, para a definição da melhor solução que atenda a cada empresa”, afirma. Outro ponto importante, para a profissional, está na adequação à Lei Geral de Proteção de Dados (LGPD), que precisa ser acompanhada de perto, desde a captação de informações até seu armazenamento e possíveis futuras utilizações.

*Crédito da foto no topo: Gremlin/Getty Images

Compartilhe

Publicidade