Elaborado por Materia para OpenMind Recomendado por Materia
2
Inicio ¿Qué es un lago de datos?
09 junio 2021

¿Qué es un lago de datos?

Tiempo estimado de lectura Tiempo 2 de lectura

Un lago de datos (o ‘data lake’) es un repositorio de datos masivo y de acceso fácil para almacenar grandes series de datos (big data). A diferencia de los almacenes de datos tradicionales (data warehouses) – optimizados para el análisis de datos discriminando en función de los atributos de los datos que se almacenan en ellos, desechando aquellos que estén por debajo del nivel de agregación – los ‘data lakes’ está diseñados para retener todos los atributos, especialmente cuando aún se desconoce el ámbito de los datos o su uso.

Diferencias entre almacenes y lagos de datos

Los almacenes de datos son repositorios de grandes dimensiones que acumulan datos de multitud de fuentes. Durante décadas, han sido los pilares fundamentales de los sistemas de inteligencia empresarial y descubrimiento/almacenamiento de datos. Sus estructuras estáticas específicas dictan el tipo de análisis al que puede someterse los datos. Los almacenes de datos gozan de gran implantación entre empresas medio y gran tamaño, por su funcionalidad para compartir datos y contenidos mediante bases de datos compartidas por diferentes equipos o departamentos. Los almacenes de datos permiten incrementar la eficiencia de las organizaciones. Las organizaciones que recurren a los ‘data warehouses’ suelen hacerlo para disponer de herramientas de apoyo a la toma de decisiones empresariales, esto es, para permitir la toma de decisiones basadas en datos (‘data driven’), de las que con tanta frecuencia se habla.

Los lagos de datos, por el contrario, almacenan grandes cantidades de datos sin procesar en formato nativo para su uso en el momento en el que se necesitan. Los almacenes de datos jerárquicos almacenan datos en archivos o carpetas, mientras que los lagos de datos utilizan una arquitectura plana para almacenar datos. En un ‘data lake’ a cada dato se le asigna un identificador único, junto con un conjunto de etiquetas de metadatos extendidos. De esta manera, cuando se plantea una pregunta comercial, se pueden rescatar los datos relevantes del lago de datos para así analizarlos y aportar respuestas a la pregunta.

El abaratamiento de los sistemas y tecnologías de almacenamiento de datos ha permitido multiplicar la cantidad de información disponible. Las nuevas tecnologías de bases de datos prescinden de esquemas preestablecidos, de manera que permiten aplicar técnicas de analítica de descubrimiento. Con los lagos de datos, las empresas emplean científicos de datos capaces de extraer conclusiones a partir del análisis de los datos en bruto. Son capaces de detectar correlaciones entre datos y extraer conclusiones a medida que profundizan en ellos.

FRF05_2021-OpenMind-Data-Lake_ES
Los cinco componentes clave de un lago de datos. Fuente: dataversity

Los cinco componentes clave de una arquitectura de lago de datos

  1. Ingesta de datos

    Un sistema de capas de ingesta fácilmente escalable que extrae datos de fuentes diversas, incluidas páginas web, aplicaciones móviles, redes sociales, dispositivos IoT y sistemas de gestión de datos existentes. Debe ser flexible para ejecutarse en diferentes modos (por lotes (batch), de una única vez o en tiempo real) y admitir cualquier tipo de datos y fuentes de datos nuevas.

  2. Almacenamiento de datos

    Un sistema altamente escalable de almacenamiento de datos debe ser capaz de almacenar y tratar datos sin procesar, así como soportar sistemas de cifrado y compresión manteniendo su eficiencia en términos de costes

    BBVA-OpenMind-Banafa-Data lake storage

     

  3. Seguridad de datos

    Independientemente del tipo de datos procesados, los data lakes deben ofrecer máxima seguridad, utilizando sistemas de autenticación y autorización multi-factor, así como niveles de acceso basado en roles, protección de datos, etc.

  4. Análisis de datos

    Tras la ingesta, los datos deben poder ser analizados de manera ágil y eficiente utilizando herramientas de análisis de datos y aprendizaje automático para extraer información relevante y transferir los datos examinados a un almacén de datos.

  5. Gobierno de datos

    El proceso de ingesta, preparación, catalogación, integración y aceleración de consultas de datos debe simplificarse en su totalidad para garantizar un nivel de calidad de los datos para uso empresarial. También es importante realizar un seguimiento de los cambios en los elementos de datos clave para una auditoría de datos.

Al igual que sucede con el ‘big data’, desde determinados sectores se argumenta que el término ‘data lake’ no es más que otra etiqueta de marketing para referirse a productos compatibles con la tecnología hadoop. Sin embargo, el término se está imponiendo para referirse a cualquier gran repositorio de datos donde tanto el esquema como los requisitos de los datos no se definen hasta que se ejecuta una consulta de  datos.

Los ‘data lakes’ prometen acelerar los procesos de extracción de información y conocimiento a nivel empresarial, evitando la complejidad que entrañan los procesos de almacenamiento de datos centrados en sistemas informáticos

Ventajas de los lagos de datos

  1. Los lagos de datos permiten a las empresas acceder de manera inmediata a todos los datos.
  2. Los datos alojados en un ‘data lake’ no se limitan a datos relacionales o transaccionales
  3. Los lagos de datos evitan la necesidad de transferir datos
  4. Además ofrece más posibilidades de uso a sus usuarios, liberándolos de las limitaciones inherentes a las tecnologías de la información
  5. Los lagos de datos aceleran los ciclos de desarrollo permitiendo a las unidades de negocio lanzar aplicaciones rápidamente.
  6. Ayuda completamente con la produccionización y la analítica avanzada
  7. Ofrece escalabilidad y flexibilidad manteniendo la eficiencia en costes
  8. Ofrece valor a partir de tipos de datos ilimitados
  9. Reduce el coste de propiedad a largo plazo
  10. Solución económica de almacenamiento de archivos
  11. Fácilmente adaptable a los cambios
  12. La principal ventaja de un lago de datos es la posibilidad de centralizar diferentes fuentes de contenido
  13. Facilita un acceso flexible a los datos a cualquier usuario, independientemente su ubicación organizativa o geográfica

Desventajas de los lagos de datos

  1. Área desconocida del procesamiento de datos
  2. Gobierno de datos
  3. Gestionar el caos.
  4. Problemas de privacidad
  5. Complejidad de los datos heredados
  6. Gestión del ciclo de vida de los metadatos
  7. Islas desiertas de datos.
  8. El problema de la integración
  9. La ausencia de estructura en los datos puede dar lugar a datos ingobernables e inútiles, así como a herramientas dispares y complejas
  10. Incrementa los costes de almacenamiento y procesamiento
  11. No existe manera de aprovechar el valor extraído de los datos por otras personas que los hayan procesado anteriormente, debido a la ausencia de un registro de linaje de hallazgos de analistas anteriores
  12. El mayor riesgo de los lagos de datos reside en la seguridad y control de acceso. Existen datos susceptibles de almacenaje sin supervisión alguna, mientras que otros pueden estar sujetos a requisitos regulatorios y de privacidad.

El futuro

Existen muchas organizaciones que están ya comenzando a hacer realidad las ventajas que se adivinaban en este tipo de estructuras. Así, gracias a las infraestructuras internas que han desarrollado, Google, Amazon y Facebook son capaces de máximo partido de las ventajas y la agilidad de los lagos de datos. En cada una de estas empresas, sus lagos de datos han generado una cadena de valor que ha permitido aflorar nuevos tipos de valor empresarial:

  •     El uso de lagos de datos para almacenar datos web ha permitido incrementar la velocidad y la calidad de las búsquedas.
  •     El uso de data lakes para almacenar datos de navegación ha permitido implementar métodos más eficaces de publicidad web
  •     El uso de lagos de datos en aplicaciones de análisis de interacciones y comportamientos de clientes en diferentes canales, permite obtener una imagen más completa del perfil de cada cliente.
  •     Los lagos de datos pueden permitir a los comercios obtener información rentable a partir de datos sin procesar de múltiples fuentes, incluidos archivos de registro, consumo de audio y video online, archivos de texto y contenido de redes sociales, para identificar comportamientos de consumidores en tiempo real y convertir acciones en ventas. Gracias a esta capacidad de generar perfiles de 360 grados de clientes, los comercios son capaces de interactuar mejor con ellos y mostrarles ofertas personalizadas de manera inmediata para retener su negocio o generar nuevas ventas.
  •     Los lagos de datos pueden ayudar a las empresas a mejorar el rendimiento de sus actividades de I+D, ayudando a los investigadores a tomar decisiones más informadas a partir de la gran cantidad de activos de datos complejos que alimentan los modelos avanzados de análisis predictivos y prescriptivo.
  •     Las empresas pueden utilizar lagos de datos para centralizar datos dispares de diferentes fuentes y ejecutar algoritmos de análisis y aprendizaje automático para ser los primeros en identificar oportunidades comerciales. Por ejemplo, en empresas de biotecnología, la implantación de un lago de datos capaz podría permitir gestionar datos de producción, investigación, atención al cliente y series públicas de datos para ofrecer visibilidad en tiempo real del proceso de investigación a múltiples comunidades de usuarios mediante diferentes interfaces de usuario.

Independientemente de su situación actual, es momento de mirar hacia el futuro. Estamos inmersos en un viaje hacia la conectividad de datos empresariales. A medida que los negocios se hagan más puramente digitales, el acceso a los datos se convertirá en una prioridad crítica, al igual que la velocidad de desarrollo e implementación. El lago de datos es un sueño que permitirá dar respuesta a estas necesidades. En 2019 se estimó el valor del mercado global de lagos de datos en 7.900 millones de dólares y se espera que siga creciendo a una tasa anual compuesta del 20,6% para alcanzar en 2024 los 20,1 mil millones de dólares de valor.

Ahmed Banafa, Autor de los libros:

Secure and Smart Internet of Things (IoT) Using Blockchain and AI

Blockchain Technology and Applications

Referencia

http://www.gartner.com/newsroom/id/2809117?

http://datascience101.wordpress.com/2014/03/12/what-is-a-data-lake/

http://searchaws.techtarget.com/definition/data-lake

http://www.forbes.com/sites/edddumbill/2014/01/14/the-data-lake-dream/

http://www.platfora.com/wp-content/uploads/2014/06/data-lake.png

http://www.b-eye-network.com/blogs/eckerson/archives/2014/03/beware_of_the_a.php

http://siliconangle.com/blog/2014/08/07/gartner-drowns-the-concept-of-data-lakes-in-new-report/

http://www.pwc.com/us/en/technology-forecast/2014/issue1/features/data-lakes.jhtml

http://www.ibmbigdatahub.com/blog/don%E2%80%99t-drown-big-data-lake

http://www.wallstreetandtech.com/data-management/what-is-a-data-lake/d/d-id/1268851?

http://emcplus.typepad.com/.a/6a0168e71ada4c970c01a3fcc11630970b-800wi

http://hortonworks.com/wp-content/uploads/2014/05/TeradataHortonworks_Datalake_White-Paper_20140410.pdf

 

Publicaciones relacionadas

Comentarios sobre esta publicación

Escribe un comentario aquí…* (Máximo de 500 palabras)
El comentario no puede estar vacío
*Tu comentario será revisado antes de ser publicado
La comprobación captcha debe estar aprobada