Elaborado por Materia para OpenMind Recomendado por Materia
4
Inicio Un lago de datos: ¿una oportunidad o un sueño para el Big Data?
07 diciembre 2015

Un lago de datos: ¿una oportunidad o un sueño para el Big Data?

Tiempo estimado de lectura Tiempo 4 de lectura

“Un lago de datos” es un depósito de datos masivo y de fácil acceso para almacenar “big data”. A diferencia de los depósitos de datos tradicionales, que están optimizados para el análisis de datos almacenando solo atributos y entregando datos por debajo del nivel de agregación, un lago de datos está diseñado para conservar todos los atributos, especialmente cuando no se conoce el alcance de los datos o su uso. Actualmente, Hadoop es la tecnología más común que se utiliza para crear lagos de datos. Resulta importante distinguir la diferencia entre Hadoop y un lago de datos. Un lago de datos es un concepto y Hadoop es una tecnología para implementar el concepto.

BBVA-OpenMind-data-lake-banafa-pyxabay-data-lake

Un lago de datos alberga una gran cantidad de datos primarios en su formato nativo hasta que resultan necesarios. Mientras que un depósito de datos jerárquico almacena datos en archivos o carpetas, un lago de datos utiliza una arquitectura plana para almacenar datos. Cada elemento de datos en un lago tiene asignado un identificador único y está marcado con un conjunto de etiquetas de metadatos extendidos. Cuando surge una cuestión comercial, resulta posible efectuar una consulta al lago de datos en busca de datos relevantes y, al mismo tiempo, cabe la posibilidad de analizar dicho conjunto de datos más pequeño para ayudar a responder a  la consulta.

Capacidades del lago de datos

  1. Capturar y almacenar datos primarios a escala para reducir costes.
  2. Almacenar muchos tipos de datos en el mismo depósito.
  3. Llevar a cabo transformaciones en los datos.
  4. Definir la estructura de los datos en el momento en que se utilicen.
BBVA-OpenMind-data-lake-banafa-pwc
¿Qué és un Lago de Datos? / Creditos: PWC

La expresión lago de datos suele asociarse con el almacenamiento de objetos orientado a Hadoop. En este escenario, los datos de una organización se cargan primeramente en la plataforma Hadoop y luego se aplican herramientas de análisis comercial y minería de datos donde residen en los nodos de clúster de Hadoop de ordenadores de bienes.

Al igual que ocurre con el Big Data, la expresión lago de datos suele desacreditarse considerándola simplemente una etiqueta de marketing para un producto que soporta Hadoop. Sin embargo, la expresión está siendo aceptada como una forma de describir cualquier depósito de datos de gran tamaño en el que el diseño y los requerimientos de datos no se definen hasta que se consultan dichos datos.

El lago de datos promete acelerar la velocidad de entrega de la información e inteligencia respecto a la comunidad comercial sin las confusiones impuestas por los procesos de depósito de datos centrados en TI.

Con un lago de datos, simplemente basta volcar todos los datos, tanto los estructurados como los no estructurados, en el lago (es decir, Hadoop) y luego permitir que las personas “destilen” sus propias visualizaciones particulares utilizando aquella tecnología que mejor se adapte a la tarea (por ej., SQL o NoSQL, bases de datos basadas en disco o en memoria, MPP o SMP.) Y el usuario crea sus visualizaciones de empresa mediante la compilación y agregación de datos desde múltiples vistas locales.

Ventajas del lago de datos

  • El lago de datos permite que los usuarios comerciales tengan acceso inmediato a todo.
  • Los datos situados en el lago no se limitan a los datos relacionales o transaccionales.
  • Con un lago de datos, el usuario nunca necesita desplazar los datos.
  • El lago de datos otorga facultades a los usuarios comerciales y los libera de las ataduras que supone la dominación de TI.
  • El lago de datos acelera la entrega permitiendo que las unidades de negocio alimenten las aplicaciones rápidamente.

Desventajas del lago de datos

  • Área desconocida del procesamiento de datos.
  • Gobernancia de datos
  • Gestionar el caos.
  • Problemas de privacidad.
  • Complejidad de los datos heredados.
  • Gestión del ciclo de vida de los metadatos.
  • Islas de datos aislados.
  • El problema de la integración.

Ahora que el almacenamiento y la tecnología de datos es barata, la información resulta muy vasta y las nuevas tecnologías de bases de datos no requieren un acuerdo sobre el esquema por adelantado, finalmente resulta posible la analítica de descubrimiento. Con lagos de datos, las empresa emplean científicos de datos que son capaces de otorgar sentido a los datos en bruto a medida los revisan. Pueden descubrir correlaciones e ideas en relación con los datos a medida que los conocen.

El futuro

Algunos afirman que el lago de datos es un sueño, pero conocemos organizaciones que están haciendo que este enfoque se convierta en realidad, las infraestructuras desarrolladas en Google, Yahoo Facebook aportan a sus desarrolladores las ventajas y la agilidad que representa el sueño del lago de datos. Para cada una de estas empresas, el lago de datos creó una cadena de valor a lo largo de la cual emergieron nuevos tipos de valores comerciales:

  • El uso de lagos de datos para datos web aumentó la velocidad y la calidad de la búsqueda web.
  • El uso de lagos de datos para datos de visitas soportó métodos más efectivos de publicidad web.
  • El uso de lagos de datos para análisis intercanal de las interacciones y los comportamientos del cliente aportó una visión más completa del cliente.

Independientemente de dónde esté ahora mismo, tómese un tiempo para contemplar el futuro. Estamos realizando un viaje en dirección a la conexión de los datos empresariales. A medida que los negocios sean cada vez más digitales en términos puros, el acceso a los datos se convertirá en una prioridad crítica, así como la velocidad de desarrollo y despliegue. El lago de datos es un sueño que puede responder a estas demandas.

Este texto está publicado en el perfil de LinkedIn de Ahmed Banfa.

Ahmed Banafa

Faculty | Author | Conferenciante| IoT Expert

 

Referencias:

http://www.gartner.com/newsroom/id/2809117?utm_content=buffer5fc11&utm_medium=social&utm_source=linkedin.com&utm_campaign=buffer

http://www.b-eye-network.com/blogs/eckerson/archives/2014/03/beware_of_the_a.php

http://siliconangle.com/blog/2014/08/07/gartner-drowns-the-concept-of-data-lakes-in-new-report/

http://www.ibmbigdatahub.com/blog/don%E2%80%99t-drown-big-data-lake

http://www.boozallen.com/media/file/FS_MakingTheCloudReign.pdf

http://www.wallstreetandtech.com/data-management/what-is-a-data-lake/d/d-id/1268851?

http://emcplus.typepad.com/.a/6a0168e71ada4c970c01a3fcc11630970b-800wi

http://hortonworks.com/wp-content/uploads/2014/05/TeradataHortonworks_Datalake_White-Paper_20140410.pdf

Publicaciones relacionadas

Comentarios sobre esta publicación

Escribe un comentario aquí…* (Máximo de 500 palabras)
El comentario no puede estar vacío
*Tu comentario será revisado antes de ser publicado
La comprobación captcha debe estar aprobada