Data lake house
¿Qué es un data lake house?
Un data lake house es una arquitectura híbrida de gestión de datos que combina las ventajas de flexibilidad y escalabilidad de un lago de datos con las estructuras y características de gestión de datos de un almacén de datos.
¿Cómo han cambiado los almacenes de datos en las últimas décadas?
Las organizaciones llevan décadas usando almacenes de datos, también conocidos como almacenes de datos empresariales (EDW), para almacenar y gestionar los datos que necesitan a fin de extraer información empresarial. Pero, puesto que los tipos, fuentes y cantidades de datos generados se han multiplicado durante los últimos años, las arquitecturas tradicionales de los almacenes de datos no han sido capaces de mantener el ritmo de la velocidad, la variedad y los volúmenes de datos de negocio que se crean a diario en las empresas. Y a medida que las empresas adoptaban cada vez más tecnologías de inteligencia artificial (IA) y aprendizaje automático (ML), los algoritmos que usaban estas herramientas requerían tener acceso directo a los datos.
¿Qué son los lagos de datos?
Los lagos de datos son arquitecturas utilizadas para almacenar grandes cantidades de datos desestructurados y semiestructurados que se recopilan en los distintos sistemas, dispositivos y aplicaciones de la empresa. Los lagos de datos emplean habitualmente infraestructuras de almacenamiento de bajo coste con una interfaz de programa de la aplicación (API) que guarda los datos con formatos de archivos genéricos y abiertos. Esto significa que los lagos de datos son útiles para almacenar datos a escala y ponerlos a disposición de los algoritmos de IA y ML, aunque no se ocupan de la calidad de los datos ni de los requisitos de gobernanza. A medida que a los lagos de datos se van añadiendo datos duplicados, irrelevantes y desorganizados debido a una organización o gestión deficiente, estos lagos se convierten en lo que se conoce como pantanos de datos, lo que hace más difícil extraer información relevante de los datos que contienen.
¿Cuál es la diferencia entre un data lake house, un almacén de datos y un lago de datos?
Almacén de datos
Un almacén de datos es una gran colección de datos de negocio procedentes de un gran número de fuentes distintas reunidos en un único almacén de datos homogéneo. Estas plataformas están específicamente diseñadas para realizar análisis de grandes cantidades de datos estructurados. Por lo general, un sistema de almacén de datos extrae los datos de diversos sistemas de inteligencia empresarial (BI), para después formatear e importar esos datos con la finalidad de hacerlos coincidir con los formatos y estándares presentes en el almacén de datos. Esto permite que los datos se almacenen en archivos o carpetas organizados para que estén disponibles inmediatamente para la elaboración de informes o el análisis de datos.
Lago de datos
Un lago de datos almacena en su formato nativo y a escala todo tipo de datos, ya sean sin procesar, estructurados o desestructurados, procedentes de todas las fuentes de datos de la empresa. Los datos se añaden al lago de datos como están, es decir, los nuevos datos no se reformatean para equipararlos al resto de datos ya existentes en el sistema. Los lagos de datos desempeñan un papel fundamental en hacer que los datos estén disponibles para sistemas de IA y ML y análisis de Big Data.
Data lake house
Un data lake house es una arquitectura nueva y abierta que combina las ventajas de flexibilidad y escalabilidad de un lago de datos con las estructuras de datos y características de gestión de datos similares de un almacén de datos. Esta combinación de características hace posible que los equipos de data science dispongan de agilidad, ya que así son capaces de usar los datos sin tener que acceder a varios sistemas. Los data lake houses también garantizan que los científicos de datos dispongan de los datos más completos y actualizados.
¿Cómo evitan los data lake houses los pantanos de datos?
La flexibilidad y escalabilidad de un data lake house en combinación con sus estructuras y capacidades de gestión proporciona a los equipos de data science la agilidad para usar los datos sin tener que acceder a varios sistemas. Los data lake houses también garantizan que los científicos de datos dispongan de los datos más completos y actualizados para llevar a cabo proyectos de análisis empresarial, IA y ML.
¿Cuáles son las ventajas de un data lake house?
Las arquitecturas de los data lake houses ofrecen mayor flexibilidad de las siguientes maneras:
1. Eliminando los trabajos más sencillos de extracción, transferencia y carga (ETL), porque los motores de consulta están conectados directamente con el lago de datos.
2. Reduciendo la redundancia de datos con una única herramienta que se utiliza para procesar datos, en lugar de tener que gestionar los datos en varias plataformas con varias herramientas.
3. Facilitando la conexión directa a diversas herramientas de análisis e inteligencia empresarial.
4. Simplificando la gobernanza de datos, porque los datos confidenciales ya no tienen que moverse de un conjunto de datos a otro y se pueden gestionar desde un único punto.
5. Reduciendo costes, porque los datos se pueden almacenar en una ubicación mediante el almacenamiento de objetos.
¿Cuáles son los componentes de un data lake house?
En un nivel superior, la arquitectura de un data lake house cuenta con dos capas principales. La plataforma data lake house gestiona la ingesta de datos hacia la capa de almacenamiento (es decir, el lago de datos). En ese momento, la capa de procesamiento es capaz de realizar consultas directas de los datos que se hallan en la capa de almacenamiento usando varias herramientas, sin tener que cargar los datos a un almacén de datos o transformarlos en un formato propietario. A partir de ese momento, los datos se pueden usar tanto por aplicaciones de inteligencia empresarial como por herramientas de IA y ML.
Esta arquitectura permite contar con las condiciones económicas de un lago de datos, pero ya que cualquier tipo de motor de procesamiento puede leer estos datos, las organizaciones disponen de la flexibilidad de poner estos datos a disposición de diversos sistemas para su análisis. De esta forma, el procesamiento y el análisis de los datos se puede hacer con una mayor efectividad y a un coste menor.
La arquitectura también permite que diversas partes puedan leer y escribir al mismo tiempo estos datos dentro del sistema, ya que este permite transacciones de base de datos que cumplen con los principios ACID (atomicidad, consistencia, aislamiento y durabilidad), que se detallan a continuación:
La atomicidad significa que cuando se procesan las transacciones, o toda la transacción se realiza de forma correcta o se anula por completo. Esto ayuda a prevenir la pérdida o corrupción de los datos en caso de una interrupción en el proceso.
La consistencia asegura que las transacciones se llevan a cabo de forma predecible y consistente. Así se garantiza que todos los datos sean válidos de acuerdo con reglas predefinidas, manteniéndose la integridad de los datos.
El aislamiento garantiza que ninguna transacción se vea afectada por alguna otra transacción del sistema hasta que esta se complete. Esto hace posible que diversas partes puedan leer y escribir desde el mismo sistema y al mismo tiempo sin interferirse.
La durabilidad asegura que los cambios que se han hecho a los datos en un sistema se mantengan tras finalizar la transacción, incluso si se produce un error del sistema. Los cambios que se producen por una transacción se almacenan permanentemente.
Soluciones data lake house de HPE
HPE Ezmeral Unified Analytics es la primera solución nativa de la nube que incorpora el análisis de Apache Spark basado en Kubernetes y la simplicidad de los data lake houses unificados usando Delta Lake a nivel local. El servicio moderniza las aplicaciones y los datos heredados para optimizar las cargas de trabajo de uso intensivo de datos desde el extremo hasta la nube a fin de ofrecer la escala y la elasticidad necesarias para realizar análisis avanzados. Esta solución ha sido diseñada desde cero para ser abierta e híbrida, y su pila tecnológica 100 % de código abierto libera a las organizaciones de la dependencia del proveedor en lo referente a sus plataformas de datos.
En lugar de requerir que todos los datos de una organización estén almacenados en una nube pública, HPE Ezmeral Unified Analytics está optimizada para implementaciones locales e híbridas y utiliza software de código abierto para garantizar la portabilidad de los datos, según sea necesario. Su flexibilidad y escala permiten asimilar grandes conjuntos de datos empresariales, o lagunas de datos, para que los clientes tengan la elasticidad que necesitan para realizar análisis avanzados, desde cualquier lugar.
Disponible en la plataforma edge-to-cloud HPE GreenLake, esta experiencia de datos unificada permite a los equipos conectarse de forma segura a los datos, allí donde se encuentren, sin interferir las pautas de acceso a los datos ya existentes. Incluye una plataforma data lake house ampliable y optimizada para Apache Spark que se instala en el entorno local. Los científicos de datos se benefician de una plataforma de análisis elástica y unificada para datos y aplicaciones del entorno local, del extremo y de todas las nubes públicas, lo que les permite acelerar los flujos de trabajo de IA y ML.