データレイク
データレイクとは
データレイクとは、ネイティブでraw形式の大容量データをクラウド アーキテクチャーで一元的に保持できる場所です。データウェアハウスやサイロと異なり、データレイクではファイルのメタデータを保持するために、オブジェクトストレージのフラットアーキテクチャーを採用しています。
データレイクが開発された経緯
「データレイク」という言葉が初めて使われたのは2015年ですが、その考え方は10年以上前から実践されています。データレイクは、分析できる多数のファイルタイプとソースを格納できる、スケーラブルデータレポジトリのニーズに応えるものです。
データレイクは、ネイティブでraw形式のペタバイト規模のデータを保持できる、単一の場所として捉えることができます。階層型データウェアハウスではデータをファイルやフォルダに保持するのに比べて、データレイクではオブジェクトベースストレージのフラットアーキテクチャーが使用されます。メタデータタグおよび識別子を使用することにより、ビッグデータ処理では高いパフォーマンスで各領域にまたがって、データを簡単に見つけ、取得でき、さらに複数のアプリケーションでその形式を活用できます。
組織がデータレイクを選択する理由
データレイクにより、エンタープライズはSQLベースの分析、データサイエンス、機械学習向けにrawデータを構造化データに低レイテンシで変換できます。あらゆるタイプのデータを簡単に収集し、そのまま維持することが可能です。データには、ストリーミング画像、ビデオ、バイナリファイルなどが含まれます。データレイクは複数のファイルタイプに対応し、新しいデータにとっては「避難港」であるため、簡単に最新の状態を維持できるようになっています。
このような柔軟性があるため、データレイクでは、スキルセット、ロケール、使用言語が異なるユーザーが必要なタスクを実行できます。データレイクで置き換えられる対象のデータウェアハウスやサイロと比較すると、明らかにビッグデータおよび機械学習アプリケーションで利用できる柔軟性があります。
データレイクとデータウェアハウスの比較
データレイクとデータウェアハウスは、共に大容量データの格納に使用できますが、データへのアクセス方法や使用方法には複数の大きな違いがあります。データレイクは、文字どおりあらゆるファイルタイプのrawデータを格納します。一方、データウェアハウスには特定の目的用に、構造化され選別されたデータを格納します。
それぞれのオープンフォーマットがあるため、データレイクでは特定のファイルタイプは必要なく、ユーザーが独自仕様のベンダーロックインに陥ることがありません。サイロやデータウェアハウスに勝るデータレイクの1つのメリットは、構造化環境の場合と比べてあらゆるタイプのデータやファイルを格納できることです。別のメリットは、データレイクが定義された当時には想定していなかったもので、データウェアハウスが特定の目的で処理するためにフィルタリングされたデータ用のリポジトリとして作成されたことにあります。
一元化されたデータレイクは、サイロやデータウェアハウスより優れています。データの重複、冗長なセキュリティポリシー、マルチユーザー連携が難しいなどの問題を解決できるためです。下流のユーザーには、データレイクはデータの複数ソースを探し、挿入するための単一の場所として表示されます。
比較すると、データレイクは耐久性に優れ、経済的です。スケーラビリティとオブジェクトストレージを活用できる機能のためです。さらに非構造化データの高度な分析および機械学習に対する優先度が今日多くの企業で高まっているため、構造化、半構造化、非構造化形式でrawデータを「取り込む」機能により、データレイクはデータストレージの選択肢として普及しつつあります。
データレイクアーキテクチャーの概要
データレイクの最初の接点は取り込み層 (ingestion tier) です。簡単に言うと、rawデータがデータレイクに追加される場所です。オンプレミス環境ではApache Hadoop File System (HDFS)を使用し、ファイルやデータを「インサイト層 (insights tier)」と呼ばれる場所に移動します。ここではデータ分析用の関連情報を環境がキャッシュします。ユーザーがクエリにSQLかNoSQLを使用するかどうかに関わらず、rawデータの有益な情報が抽出層 (distillation tier) (processing tier) に移動されます。ここでメタデータが構造化データに変換され、データマネージャーや管理者により利用されます。
統合処理層 (unified operations tier) で、システム管理とモニタリングにより、拡張監査を実行し、能力、データ、ワークフロー管理を保証します。さらに重要なのは、データにセキュリティやコンプライアンスの問題があるのかを継続的にチェックすることです。データ主導エンタープライズクライアントは、データレイクが提供する有益な情報や傾向を適切に特定するために、リアルタイムでの更新が必要です。
データレイクの目的は、データアクセスと消費です。カタログがないと、ユーザープロファイリングデータセットの完全性確認が効率的にできず、処理が遅くなります。同様に、ガバナンスが機能していれば、コンプライアンスおよびセキュリティ問題がなくなり、ファイルからは個人情報が不要になります。またデータレイクにより、消費を妨げることなく特定データを削除する機能がサポートされるようになります。
データレイクプラットフォームの内容
事実上すべての主要なクラウドサービスプロバイダーでは、最新のデータレイクソリューションを提供しています。オンプレミスのデータセンターでは、Hadoop File System (HDFS) をほぼ標準として継続使用しています。エンタープライズはクラウド環境の採用を続行していますが、データストレージをクラウドベースのデータレイク環境に移行することで活用の場を拡げようとしているデータサイエンティスト、エンジニア、ITプロフェッショナルにとって、多くのオプションが利用できます。
データレイクは、JSONのようなストリーミングデータで作業するとき、特に便利です。3つの典型的なビジネス使用事例は、ビジネスアナリティクス/インテリジェンス、機械学習に注力するデータサイエンス、データ提供で、リアルタイムデータを扱う高パフォーマンスアプリケーションに対するものです。
Amazon Web Services (AWS) からMicrosoft Azure、Google BigQueryといった主要なすべてのクラウドサービスプロバイダーは、クラウドベースのデータレイクに必要なストレージとサービスを提供します。シンプルなバックアップから完全な統合まで、組織が求める統合レベルが何であれ、すべてのオプションが揃っています。
データレイクの使用方法
ほんの20~30年前と比較して、ウェアハウスに格納されたトランザクションデータをベースにしたビジネス決定はかなり少なくなりました。構造化データウェアハウスから流動的な最新データレイク構造への大転換は、最新のビッグデータおよびデータサイエンスアプリケーションのニーズや機能の変化に対応しています。
新しいアプリケーションが毎日のようにリリースされていますが、最新データレイク向けの典型的なアプリケーションでは、新しいデータの高速取得と分析に注力しています。たとえば、データレイクはCRMプラットフォームの顧客データをソーシャルメディア分析あるいは顧客の購買履歴を統合できるマーケティングプラットフォームと結合できます。これらが統合されると、企業は利益が見込める潜在的領域や顧客離反の原因を効果的に把握できるようになります。
同様に、データレイクでは、研究開発チームが仮説を検証し結果を評価できます。リアルタイムでデータを収集する方法がますます増えているため、データレイクはストレージや分析手法を高速化し、さらに直感的に、多くのエンジニアがアクセスできるようにします。
HPEとデータレイク
ビッグデータは、現在各企業が自らの最大の課題として取り組んでいます。非構造化データからの価値抽出にはHadoopが成功を収めてきましたが、各組織ではこれを実行する方法を簡素化する新しい優れた方法を求めています。
現在の企業は分析に多額の支出を費やしています。システムからデータサイエンティストやITワークフォースまで、オンプレミスのHadoopベースのデータ管理を実装、運用、保守するためです。あらゆるデータ環境の場合と同様に、容量へのニーズが指数関数的に変わることがあります。
HPE GreenLakeはHadoopエクスペリエンスを基本的に簡素化できる、スケーラブルのクラウドベースのソリューションを各組織に提供し、複雑さと費用を取り除き、データが提供する有益な情報の取得に注力します。HPE GreenLakeではハードウェア、ソフトウェア、HPEのサービスと共に完全なエンドツーエンドソリューションを提供します。
保有するデータの可能性を最大化することにより、HPE GreenLakeはオンプレミス環境に含まれるHDFSデータレイクを完全に活用し、一方クラウドで提供されるメリットやインサイトを活用します。