Lago de datos
¿Qué es un lago de datos?
Un lago de datos es una ubicación centralizada en la arquitectura de nube que guarda grandes cantidades de datos en su formato nativo sin procesar. A diferencia de los silos o almacenes de datos, los lagos de datos emplean una arquitectura plana con almacenamiento de objetos para mantener los metadatos de los archivos.
¿Cómo se desarrollaron los lagos de datos?
La expresión «lago de datos» tiene su origen en 2015, aunque el concepto ha existido en la práctica durante más de una década. Los lagos de datos responden a la necesidad de contar con repositorios de datos escalables, capaces de almacenar numerosos tipos y orígenes de datos que puedan analizarse a posteriori.
Un lago de datos puede entenderse como una ubicación central capaz de almacenar petabytes de datos, pero en su formato nativo, sin procesar. Comparados con un almacén de datos jerárquico, que mantiene los datos almacenados en archivos y carpetas, los lagos de datos utilizan una arquitectura plana con almacenamiento basado en objetos. Al emplear etiquetas de metadatos e identificadores, las operaciones de Big Data pueden localizar y recuperar con más facilidad los datos entre varias regiones y con un rendimiento mejorado, al tiempo que habilitan la posibilidad de que varias aplicaciones puedan aprovechar su formato.
¿Por qué eligen las organizaciones los lagos de datos?
Los lagos de datos permiten a las empresas transformar datos sin procesar en datos estructurados, listos para análisis basados en SQL, data science y aprendizaje automático, pero con una latencia menor. Además, todos los tipos de datos se recopilan con más facilidad y se retienen indefinidamente, incluidas imágenes de streaming, vídeo, archivos binarios y más. Puesto que el lago de datos brinda capacidad de respuesta para diversos tipos de archivos y un «puerto seguro» para datos nuevos, resulta más sencillo mantenerlo actualizado.
Con este tipo de flexibilidad, los lagos de datos brindan a los usuarios distintos tipos de conjuntos de capacidades, configuraciones regionales e idiomas para realizar las tareas que necesitan. Cuando se comparan los lagos de datos con los almacenes de datos y silos a los que han sustituido, la flexibilidad que proporcionan para aplicaciones de Big Data y aprendizaje automático resulta cada vez más evidente.
Lago de datos vs. almacén de datos
Aunque tanto los almacenes como los lagos de datos pueden emplearse para almacenar grandes volúmenes de datos, existen varias diferencias clave en cuanto a las maneras de acceder a ellos y usarlos. Los lagos de datos almacenan datos sin procesar de, literalmente, cualquier tipo de archivo. De forma alternativa, un almacén de datos guarda datos ya estructurados y filtrados para un fin determinado.
Con su formato abierto, los lagos de datos no requieren un tipo de archivo específico ni someten a los usuarios a una dependencia del proveedor propietario. Una de las ventajas de los lagos de datos con respecto a los silos o los almacenes es la capacidad de almacenar cualquier tipo de dato o archivo, frente a un entorno más estructurado. Otra de las ventajas consiste en que no resulta necesario definir en el tiempo la finalidad que subyace a la configuración de un lago de datos, mientras que un almacén de datos se crea como un repositorio para datos filtrados que ya han sido procesados con una finalidad específica.
Un lago de datos centralizado resulta preferible frente a los silos y almacenes de datos porque elimina problemas como la duplicación de datos, las políticas de seguridad redundantes y las dificultades en la colaboración multiusuario. Para el usuario final, un lago de datos aparece como un lugar en el que buscar o interpolar varios orígenes de datos.
Los lagos de datos también resultan, comparativamente, enormemente duraderos y económicos, debido a su escalabilidad y capacidad para aprovechar el almacenamiento de objetos. Y puesto que las empresas actuales consideran a los análisis avanzados y el aprendizaje automático con datos desestructurados una prioridad cada vez mayor, la capacidad de «ingerir» datos sin procesar en formatos estructurados, semiestructurados y desestructurados convierte a los lagos de datos en una opción cada vez más popular para el almacenamiento de datos.
Comprender la arquitectura del lago de datos
El punto de contacto inicial con un lago de datos se encuentra en el nivel de ingestión. En términos sencillos, aquí es donde se añaden los datos sin procesar al lago de datos. Los entornos locales emplean el sistema de archivos de Apache Hadoop (HDFS) y migran archivos y datos a lo que a menudo se conoce como un «nivel de información», donde el entorno almacena en caché la información relevante para el análisis de datos. Con independencia de que el usuario decida emplear SQL o NoSQL para realizar consultas, la información sobre los datos sin procesar se desplaza ahora al nivel de destilación (o procesamiento), donde los metadatos se convierten en datos estructurados para su uso por gestores y administradores de datos.
En el nivel de las operaciones unificadas , la gestión y supervisión de sistemas realiza auditorías extensas que garantizan la gestión de conocimientos, datos y flujos de trabajo. Además, resulta importante que se comprueben continuamente los datos en busca de problemas potenciales de seguridad y cumplimiento. Los clientes empresariales basados en datos necesitan actualizaciones en tiempo real para identificar adecuadamente las tendencias y la información que proporciona un lago de datos.
La finalidad de los lagos de datos es el acceso a los datos y su consumo. Sin un catálogo, las ineficiencias de un usuario perfilando conjuntos de datos por su integridad ralentiza las operaciones. De igual manera, la gobernanza dictamina que los problemas de cumplimiento y seguridad no son en realidad problemas, de modo que se elimina la información de identificación personal de los archivos. Asimismo, el lago de datos admite la capacidad de eliminar datos específicos sin producir disrupciones en el consumo.
¿Qué son las plataformas de lagos de datos?
Prácticamente todos los proveedores de servicios de nube principales ofrecen soluciones de lago de datos modernas. Los centros de datos locales continúan empleando el sistema de archivos Hadoop (HDFS) casi como un estándar. No obstante, a medida que las empresas adoptan progresivamente el entorno de nube, los científicos de datos, ingenieros y profesionales de TI se encuentran con que disponen de numerosas opciones para aprovechar las posibilidades mejoradas de desplazar su almacenamiento de datos a un entorno de lago de datos basado en la nube.
Los lagos de datos resultan especialmente útiles cuando se trabaja con datos en streaming, como JSON. Los tres casos de uso empresariales más habituales son el análisis o inteligencia empresarial, data science centrada en aprendizaje automático y los servidores de datos; aplicaciones de alto rendimiento que dependen de datos en tiempo real.
Todos los proveedores de servicios de nube más importantes, desde Amazon Web Services (AWS) hasta Microsoft Azure o Google BigQuery, proporcionan el almacenamiento y los servicios necesarios para lagos de datos basados en la nube. Cualquiera que sea el nivel de integración que busque una organización, desde la simple copia de seguridad a la integración completa, existe una variedad casi inagotable de opciones.
¿Cómo se emplean los lagos de datos?
Comparadas con hace tan solo dos o tres décadas, la mayoría de las decisiones empresariales ya no se basan en datos transaccionales guardados en almacenes de datos. El cambio radical desde un almacén de datos estructurado a la fluidez de la estructura del lago de datos moderno se ha producido en respuesta a las necesidades y capacidades cambiantes de las aplicaciones de Big Data y data science modernas.
Aunque siguen emergiendo nuevas aplicaciones prácticamente a diario, algunas de las más habituales para el lago de datos moderno se centran en la rapidez de adquisición y análisis de los nuevos datos. Por ejemplo, un lago de datos puede combinar los datos de clientes de una plataforma de CRM con análisis de redes sociales, o una plataforma de marketing puede integrar el historial de compras de un cliente. Cuando se combinan estos elementos, una empresa puede comprender mejor las potenciales áreas de beneficios o las causas de la pérdida de clientes.
Del mismo modo, un lago de datos permite a los equipos de investigación y desarrollo probar hipótesis y evaluar los resultados. Al aportar cada vez más formas de recopilar datos en tiempo real, un lago de datos logra que los métodos de almacenamiento o análisis resulten más rápidos, intuitivos y accesibles a un mayor número de ingenieros.
HPE y los lagos de datos
Las empresas actuales emplean el Big Data para enfrentarse a sus mayores desafíos. Donde Hadoop ha resultado adecuado para destilar valor de los datos desestructurados, ahora las organizaciones buscan nuevas y mejoradas formas de simplificar este proceso.
Las empresas de hoy en día realizan inversiones enormes en análisis, desde sistemas, científicos de datos y plantillas de TI, para implementar, operar y mantener la gestión de datos local basada en Hadoop. Al igual que con cualquier entorno de datos, los requisitos de capacidad pueden cambiar exponencialmente.
HPE GreenLake brinda a las organizaciones una solución basada en la nube realmente escalable capaz de simplificar drásticamente su experiencia de Hadoop, al eliminar la complejidad y el coste y centrándose en su lugar en obtener el conocimiento que proporcionan los datos. HPE GreenLake ofrece una solución global completa con hardware, software y servicios HPE.
Al maximizar el potencial de tus datos, HPE GreenLake aprovecha al máximo el lago de datos HDFS ya incluido en el entorno local, mientras se beneficia de las ventajas y la información presentes en la nube.