Lac de données
Qu’est-ce qu’un lac de données ?
Les lacs de données sont des emplacements centralisés d’une architecture cloud qui contiennent de grandes quantités de données stockées dans leur format brut natif. Contrairement aux entrepôts de données ou aux silos, les lacs de données utilisent une architecture plate avec stockage d’objet pour conserver les métadonnées des fichiers.
Comment les lacs de données ont-ils été développés ?
Le terme « lac de données » a vu le jour en 2015, mais le concept est mis en pratique depuis plus d’une décennie. Les lacs de données répondent au besoin de référentiels de données évolutifs capables de stocker de nombreux types de fichiers et de sources qui peuvent ensuite être analysés.
Un lac de données peut être considéré comme un emplacement centralisé capable de contenir des pétaoctets de données, mais dans leur format brut et natif. Par rapport à un entrepôt de données hiérarchique, qui stocke les données dans des fichiers et des dossiers, les lacs de données utilisent une architecture plate avec un stockage orienté objet. L’utilisation de balises et d’identifiants de métadonnées permet aux opérations de Big Data de localiser et de récupérer plus facilement les données dans toutes les régions avec des performances améliorées. En outre, de multiples applications peuvent tirer parti de leur format.
Pourquoi les organisations choisissent-elles les lacs de données ?
Les lacs de données permettent aux entreprises de transformer des données brutes en données structurées prêtes pour l’analyse basée sur SQL, la science des données et le machine learning, mais avec une latence plus faible. Tous les types de données sont collectés plus facilement et sont conservés indéfiniment, y compris pour la diffusion en continu d’images, de vidéos, de fichiers binaires, etc. Étant donné que le lac de données est adapté à de multiples types de fichiers et qu’il constitue une « sphère de sécurité » pour les nouvelles données, il est plus facile de le tenir à jour.
Grâce à ce type de flexibilité, les lacs de données permettent à des utilisateurs ayant des compétences, des localisations et des langues différentes d’effectuer les tâches dont ils ont besoin. Par rapport aux entrepôts de données et aux silos de données qu’ils ont efficacement remplacés, la flexibilité que les lacs de données offrent aux applications de Big Data et de machine learning est de plus en plus manifeste.
Lac de données et entrepôt de données
Si le lac de données et l’entrepôt de données peuvent tous deux être utilisés pour stocker de grandes quantités de données, il existe plusieurs différences essentielles dans la manière d’accéder à ces données ou de les utiliser. Les lacs de données stockent des données brutes, quel que soit le type de fichier. En revanche, un entrepôt de données stocke des données qui ont déjà été structurées et filtrées dans un but précis.
Grâce à leur format ouvert, les lacs de données ne requièrent pas de type de fichier spécifique et les utilisateurs ne sont soumis à aucun enfermement propriétaire. L’un des avantages des lacs de données par rapport aux silos ou aux entrepôts est la possibilité de stocker tout type de données ou de fichiers, à la différence des environnements plus structurés. Autre avantage : il n’est pas nécessaire de déterminer la finalité d’un lac de données au moment de sa mise en place, alors qu’un entrepôt de données est défini dès le départ comme un référentiel de données filtrées qui ont déjà été traitées avec une intention précise.
Un lac de données centralisé est plus avantageux qu’un ensemble de silos ou d’entrepôts, car il écarte les problèmes tels que la duplication des données, les politiques de sécurité redondantes et les difficultés liées à la collaboration multi-utilisateur. Pour l’utilisateur en aval, un lac de données apparaît comme un lieu unique pour rechercher ou interpoler de multiples sources de données.
En comparaison, les lacs de données sont également très durables et économiques en raison de leur évolutivité et de leur capacité à exploiter le stockage d’objets. Et comme l’analyse avancée et le machine learning à partir de données non structurées sont devenus des priorités croissantes pour de nombreuses entreprises, la capacité à « ingérer » des données brutes dans des formats structurés, semi-structurés ou non structurés fait des lacs de données un choix de plus en plus populaire pour le stockage des données.
Comprendre l’architecture des lacs de données
Le premier point de contact avec un lac de données est la couche d’ingestion. En clair, c’est là que les données brutes sont ajoutées à ce lac de données. Les environnements sur site utilisent le système de fichier distribué Apache Hadoop Distributed File System (HDFS) et transfèrent les fichiers et les données vers une zone appelée « couche informationnelle », où l’environnement met en cache les informations pertinentes pour l’analyse de données. Que l’utilisateur choisisse d’utiliser SQL ou NoSQL pour les requêtes, les informations sur les données brutes sont maintenant déplacées vers la couche de distillation (ou de traitement), où les métadonnées sont converties en données structurées qui seront utilisées par les gestionnaires et les administrateurs de données.
Au sein de la couche des opérations unifiées, les solutions de gestion et de surveillance des systèmes procèdent à des vérifications approfondies garantissant la gestion des compétences, des données et des workflows. En outre, il est important que les données soient vérifiées en permanence pour déceler d’éventuels problèmes de sécurité et de conformité. Les entreprises clientes orientées données ont besoin de mises à jour en temps réel pour déceler clairement les tendances et les informations que fournit un lac de données.
L’objectif des lacs de données est l’accès aux données et leur consommation. En l’absence de catalogue, la nécessité où se trouve l’utilisateur de profiler les ensembles de données pour en vérifier l’intégrité engendre des inefficiences qui ralentissent les opérations. De même, la gouvernance exige que les questions de conformité et de sécurité ne soient pas un problème, que les informations d’identification personnelle soient éliminées des fichiers et que le lac de données permette de supprimer des données spécifiques sans perturber la consommation.
Que sont les plateformes de lac de données ?
Pratiquement tous les grands fournisseurs de services cloud proposent des solutions modernes de lacs de données. Pour les datacenters sur site, le système de fichiers Hadoop (HDFS) reste un quasi-standard. Cependant, à mesure que les entreprises adoptent l’environnement cloud, de nombreuses options s’offrent aux data scientists, ingénieurs et informaticiens qui cherchent à tirer parti des possibilités accrues offertes par le transfert de leur stockage de données vers un environnement de lac de données basé sur le cloud.
Les lacs de données sont particulièrement utiles pour traiter des données diffusées en continu comme les flux JSON. Les trois cas d’utilisation les plus courants sont le Business Analytics ou l’intelligence économique, la science des données axée sur le machine learning et la diffusion de données — des applications hautes performances qui sont tributaires des données en temps réel.
Tous les grands fournisseurs de services cloud, d’Amazon Web Services (AWS) à Microsoft Azure en passant par Google BigQuery, proposent le stockage et les services nécessaires aux lacs de données basés sur le cloud. Quel que soit le niveau d’intégration recherché par une organisation, de la simple sauvegarde à l’intégration complète, les options ne manquent pas.
Comment les lacs de données sont-ils utilisés ?
Par rapport à il y a seulement deux ou trois décennies, la plupart des décisions d’affaires ne sont plus basées sur des données transactionnelles stockées dans des entrepôts. Le passage d’un entrepôt de données structuré à la fluidité de la structure du lac de données moderne répond à l’évolution des besoins et des capacités des applications modernes de Big Data et de science des données.
Bien que de nouvelles applications continuent d’apparaître presque quotidiennement, certaines des applications les plus typiques du lac de données moderne sont axées sur l’acquisition et l’analyse rapides de nouvelles données. Par exemple, un lac de données est capable de combiner les données clients d’une plateforme CRM avec l’analyse des médias sociaux ou une plateforme marketing capable d’intégrer l’historique d’achat d’un client. En combinant ces éléments, une entreprise peut identifier plus précisément ses domaines de profit potentiels ou la cause de la perte de clients.
De même, un lac de données permet aux équipes de recherche et développement de tester des hypothèses et d’évaluer les résultats. Les moyens de collecter des données en temps réel étant de plus en plus nombreux, un lac de données rend les méthodes de stockage ou d’analyse plus rapides, plus intuitives et accessibles à un plus grand nombre d’ingénieurs.
HPE et les lacs de données
Le Big Data permet aux entreprises d’aujourd’hui de relever leurs plus grands défis. Si Hadoop a réussi à extraire de la valeur des données non structurées, les entreprises recherchent de nouveaux moyens, plus efficaces, de simplifier leurs méthodes de travail.
Les entreprises engagent actuellement d’énormes dépenses liées à l’analytique, qu’il s’agisse de systèmes, de data scientists ou d’équipes informatiques, afin de mettre en œuvre, d’exploiter et de maintenir leur gestion des données sur site basée sur Hadoop. Comme pour tout environnement de données, les besoins en capacité peuvent évoluer de manière exponentielle.
HPE GreenLake offre aux entreprises une solution cloud véritablement évolutive qui peut simplifier fondamentalement leur expérience Hadoop en éliminant les facteurs de complexité et de coûts pour donner la priorité à l’extraction d’informations à partir des données. HPE GreenLake offre une solution de bout en bout comprenant matériel, logiciels et services.
En optimisant le potentiel de vos données, HPE GreenLake tire pleinement parti du lac de données HDFS déjà contenu dans l’environnement sur site, tout en exploitant les avantages et les informations offerts dans le cloud.