Data Lake: prós e contras na implementação

Com o crescimento exponencial da utilização de sistemas pelas empresas e grandes corporações, foi-se acumulando uma grande quantidade de dados, no geral armazenados de forma estrutural em banco de dados convencionais, ou organizados em data wearehouses. Esse aumento dos dados foi a origem do surgimento do conceito de Big Data, termo utilizado para tratar grandes quantidades de dados armazenados/gerados por uma empresa.

Com o passar do tempo, percebeu-se que o modelo de big data não comportava as necessidades e possibilidades que os dados, devidamente analisados, poderiam gerar para uma empresa ou sociedade, com isso nasceu a necessidade de se armazenar esses dados de forma que se pudesse realizar consultas e análises em grandes montantes de dados oriundos de diversas fontes distintas. Foi então que se iniciou o conceito de data lake, um grande repositório de dados, onde todos eles são armazenados deforma bruta, sem nenhum tipo de tratamento, e depois, quando são recuperados para uma análise, são devidamente tratados pelos cientistas de dados.

Implementar um data lake, de forma simples e resumida, nada mais é que criar rotinas e processos que preencham esse grande lago de dados de forma periódica, sem levar em consideração modelos de dados, formatos, origens, ou nada do tipo.

Porém a adoção de um data lake pelas empresas vem gerando discussões assíduas entre defensores da metodologia e aqueles que acreditam que ela seja um grande problema futuro.

Prós:

Ao implementar um data lake em sua empresa, você passa a possuir, se devidamente implementado, um local com arquitetura centrada em dados, com alta capacidade de ser escalável, ambiente distribuído e poderoso processamento de dados paralelo, que permite que a análise de dados seja mais rápida e viável do que em uma estrutura relacional.

Ainda temos a possibilidade de, através do compartilhamento de dados entre sistemas e áreas, termos visibilidades de informações e insights nunca antes acessados, devido a forma convencional que os sistemas são costumeiramente construídos, como verdadeiras ilhas isoladas.

Contras:

Do lado daqueles que não acreditam no data lake, estão no geral profissionais mais conservadores, que levantam entre os maiores riscos na implementação do data lake a falta de conhecimento entre os que vendem as soluções de data lake e aqueles que as compram, a falta de alguém com o perfil técnico que possa avaliar a implementação antes da contratação é um fator importante e diferencial para que as expectativas na aquisição de uma solução de data lake sejam atendidas.

Entender que adquirir e implementar um data lake vai muito além de se implementar um repositório maciço de dados, que deve envolver a área de segurança da informação, change management, os donos dos dados de todos os sistemas envolvidos, e etc.

Conclusão

A implementação de um data lake é sim positiva para qualquer empresa que possua um alto índice de transporte de dados, porém ressalvas devem ser aplicadas e cuidados assegurados para que o sonho da integração e acesso de dados por todos (aqueles que precisam e merecem acessá-los) não se torne um verdadeiro pesadelo.

0 visualização0 comentário

Posts recentes

Ver tudo