データレイクハウス
データレイクハウスとは
データレイクハウスは、データレイクの柔軟性をデータウェアハウスの構造化された機能と組み合わせたものであり、多様な構造化データと非構造化データを格納および分析するための統合型プラットフォームとして利用できます。ハイブリッドデータレイクハウス アーキテクチャーでは、データの処理と保管にオンプレミスとクラウドが活用されています。
この数十年間のデータウェアハウスの変化
従来型のデータウェアハウスは、オンプレミスに置かれている構造化データ向けに構築されており、レポート作成やダッシュボードのようなビジネスインテリジェンス (BI) 機能が主にサポートされていました。最新のデータウェアハウスは、幅広いデータ形式に対応し、保管や処理に使用するクラウドプラットフォームをサポートしており、データサイエンスツールや機械学習のアルゴリズムを統合しているため、より詳細なインサイトをデータから抽出できます。
データウェアハウスは、サイロ化した構造化データレポジトリから、多様なデータ形式にわたる高度な分析をサポートする柔軟なクラウドベースのプラットフォームへと進化しており、セキュリティとデータガバナンスを優先しつつ、さらに自動化されてユーザーフレンドリになってきています。
データレイクとは
データレイクハウスは、企業全体の多様なビジネスアプリケーション、システム、およびデバイスからの膨大な非構造化データと半構造化データを処理および格納できるように設計されている専用アーキテクチャーです。従来型のデータベースと異なり、データレイクはファイルAPIとコスト効率に優れたストレージインフラストラクチャを活用して、rawテキスト、画像、ビデオ、などのさまざまなデータタイプを格納できます。
その拡張性とアクセシビリティにより、データレイクは高度な分析、特に機械学習や人工知能のアルゴリズムに有利になっています。オープンなファイル形式を使用することで相互運用性が強化されていますが、データレイクにはデータの完全性とガバナンスを確保するための堅牢なメカニズムが本質的に欠如していることに留意することが極めて重要です。
適切に管理されなければ、データレイクには冗長で無秩序なデータが蓄積されて、「データスワンプ」になる可能性があります。そのようなスワンプが進むと、有意義なインサイトを抽出することが難しくなります。組み込みのガバナンスが欠如しているため、データの完全性、メタデータ、アクセス制御を維持するにはユーザーによる慎重な監視が必要とされます。
このような課題があるにもかかわらず、データレイクは現代のデータアーキテクチャーでも依然として大いに役立っており、異機種データの処理ではコスト効率に優れたソリューションを提供しています。多くの場合、データカタログの作成やメタデータ管理のような付加テクノロジーを展開して、データスワンプを防止し、レイク内のデータを構造化されて信頼性が高い分析に適したデータにしています。
データレイクハウス、データウェアハウス、データレイクの主な違い
データウェアハウス、データレイク、データレイクハウスはそれぞれ異なるデータ管理アーキテクチャーであり、それぞれが企業の特定のデータ課題に適合します。
データの構造とスキーマ:
- データレイクでは、データの構造に関係なく、データは元の形式で格納されています。
- データウェアハウスは、事前定義済みのスキーマを使用した構造化データ用に設計されています。
- データレイクハウスは、構造化データと非構造化データの両方を扱うことができるため、データ管理を向上させるためにスキーマを取り入れながら、双方の柔軟性を提供します。
データ処理:
- データレイクには、処理されていないrawデータが格納されます。
- データウェアハウスには、分析にすぐに利用できるように、データが事前処理されてクレンジングされてから格納されます。
- データレイクハウスにはrawデータを格納できますが、レイクハウス環境内で処理することも許容されています。
フォーカスとユースケース:
- データレイクは、探索的分析、大規模データセットでの隠れたパターンの発見、および機械学習のような高度な分析のサポートに適しています。
- データウェアハウスは、ビジネスインテリジェンス (BI) およびレポート作成向けに構築されており、戦略的な意思決定を裏付けるための動向やインサイトを獲得する、履歴データの解析を提供します。
- データレイクハウスでは、BI用にある程度のデータガバナンスを提供しつつ、あらゆるデータタイプに対する高度な分析という強みが組み合わされています。
コストと拡張性:
- データレイクは、低コストのストレージソリューションにraw形式でデータを格納するため、通常はコスト効率に優れており、増大するデータボリュームを収容できる高い拡張性を備えています。
- データウェアハウスは、処理と構造化ストレージの要件のため、コストが高くなる可能性があり、データレイクと比べると拡張性は限定されることがあります。
- データレイクハウスは、コストと拡張性のバランスが取れており、rawデータの格納にはコスト効率に優れていますが、レイクハウス環境内で追加の処理コストが発生することがあります。
データレイクハウスがデータスワンプを防止する仕組み
データレイクでは、膨大なデータに対する柔軟なストレージソリューションが提供されますが、適切に管理されていなければ、データスワンプ (分析するのが難しい整理されていない低品質のデータのレポジトリ) になる可能性があります。データレイクハウスでは、データスワンプが形成されないようにデータウェアハウスから機能を取り込むことで、この問題に特別に対処しています。それを以下に示します。
データガバナンス:
- データレイクハウスでは、データの所有権、アクセス制御、データ品質基準などのデータガバナンスのプラクティスが実装されています。これにより、データの一貫性、正確さ、およびトレーサビリティが確保され、無関係なデータや信頼できないデータがレイクに蓄積されることが防止されます。データウェアハウスでは、これらのプラクティスがすでに実施されています。
- 一方、データレイクでは、強力なガバナンスが欠如していることが多いため、無制御なデータ取り込みおよび重複やエラーが発生する可能性があります。
データスキーマ:
- データレイクハウスではいくつかのスキーマ定義が許容されているため、データをある程度まで整理するのに役立ちます。これにより、完全非構造化のデータレイクと比べて、分析のためのデータの検出や取得が容易になります。データウェアハウスのような厳格な構造は課されていませんが、より適切なデータ管理との妥協点が提供されます。
- データレイクでは、データが元の形式で格納されており、非構造化または半構造化の形式です。そのため、柔軟性がありますが、データの探索および分析の複雑さが増します。
データライフサイクル管理:
- データレイクハウスでは、データライフサイクル管理が容易です。事前定義済みのルールに基づいてデータを識別、分類、アーカイブ、または削除するためのプロセスを伴います。これは、無関係なデータや古くなったデータがレイクハウスに蓄積されるのを防ぎ、無駄をなくして効率を維持することに役立ちます。
- データレイクでは、適切なデータライフサイクル管理が欠如していることが多く、データのスプロールを招くことや、無関係な情報の中から価値のあるインサイトを見つけ出すのが難しくなります。
データ品質ツール:
- データレイクハウスでは、データ品質ツールを組み込んで、取り込み時またはレイクハウス環境内でデータをクレンジングおよび検証することができます。そうすることで、レイクに格納されているデータの正確さと信頼性を確保できます。
- データレイクでは、分析の前に個別のデータクレンジングプロセスが必要とされることがあり、その場合は、複雑さが増し、インサイトの導出が遅れる可能性があります。
データレイクハウスの利点
データレイクハウスには、すべてのデータをより的確な意思決定や分析に活用しようとする組織にとって、データレイクハウスを説得力のある選択肢にするいくつかのメリットがあります。主なメリットを以下に示します。
- 統合データプラットフォーム: データレイクハウスでは、データレイクとデータウェアハウスの強みが組み合わされて、形式 (構造化、半構造化、非構造化) に関係なくあらゆるデータを格納および管理するための単一のプラットフォームが提供されます。そのため、異なるデータタイプ用に個別のシステムを準備する必要がなくなり、データ管理が簡素化され、さまざまな分析プロジェクトでデータをすぐに利用できるようになります。
- データガバナンスの向上: データレイクハウスでは、データウェアハウスからデータガバナンス機能が取り込まれています。そのため、データの所有権を定義し、アクセス制御を実装し、データ品質基準を定めることができます。そうすることで、データの一貫性、正確さ、およびトレーサビリティが確保され、データスワンプ (分析するのが難しい整理されていない低品質のデータのレポジトリ) が形成されることが防止されます。
- 柔軟性と拡張性: データレイクハウスでは、データレイクの柔軟性が継承されています。事前定義された構造を気にすることなく、あらゆるデータを「そのまま」格納できます。さらに、データレイクの拡張性も提供されるため、増大するデータボリュームを収容できるように容易にスケールアップまたはスケールダウンできます。
- 高度な分析のサポート: 処理されていないrawデータを格納することで、データレイクハウスはさまざまな分析のための基盤を提供します。このデータは、機械学習モデルのトレーニングや、データマイニングや人工知能のような他の形態の高度な分析に役立ちます。
- コスト効率: データレイクハウスは、従来型のデータウェアハウスよりもコスト効率に優れていることがあります。多くの場合、低コストのストレージソリューションをrawデータ用に活用し、データライフサイクル管理を実装して不要なデータを削除し、ストレージ要件を軽減することができます。
- インサイト獲得までの時間の短縮: すべてのデータがアクセス可能な単一の場所に置かれているため、データの検出や取得が簡素化されます。そのため、データアナリストやデータサイエンティストがデータの検索に費やす時間が短縮され、価値のあるインサイトを抽出することにより多くの時間を費やすことができます。
- 意思決定の向上: データの包括的なビューを提供することにより、データレイクハウスはデータ主導の意思決定を促進します。さまざまなデータソースからのインサイトを組み合わせて、顧客、運用、および市場動向についてより詳細に把握できるため、より適切な情報に基づいたビジネスの意思決定につながります。
データレイクハウスの構成要素
データレイクハウス アーキテクチャーは、データレイクの自由さをデータウェアハウスの構造化された品質と組み合わせた、ハイブリッド方式のデータ管理です。大まかには次の2つの重要なレイヤーがあります。
レイクハウスプラットフォーム:
- 直接クエリアクセス: この処理レイヤーは、データをデータウェアハウスにロードすることも独自の形式に変換することも必要もなく、レイクに格納されているデータの直接クエリを提供します。この直接アクセスにより、BIアプリケーション、AI、およびMLのテクノロジーでデータをより有効に利用できます。
- ツール非依存: どの処理エンジンでも、データを元の形式で読み取ることができるため、準備されたデータを多様なツールやシステムで調べることができます。この適応性により、処理と分析のパフォーマンスが向上し、顧客効率も向上します。
処理レイヤー:
- 直接クエリアクセス: この処理レイヤーは、データをデータウェアハウスにロードすることも独自の形式に変換することも必要もなく、レイクに格納されているデータの直接クエリを提供します。この直接アクセスにより、BIアプリケーション、AI、およびMLのテクノロジーでデータをより有効に利用できます。
- ツール非依存: どの処理エンジンでも、データを元の形式で読み取ることができるため、準備されたデータを多様なツールやシステムで調べることができます。この適応性により、処理と分析のパフォーマンスが向上し、顧客効率も向上します。
重要な原則: データベーストランザクションのACID準拠:
- 不可分性: トランザクションがすべて完了したか、まったく処理されていないかのいずれかであることが保証されます。処理が停止した場合、これによりデータロスもデータの破損も回避されます。
- 一貫性: 所定の基準に基づくデータの有効性を維持し、全体的なデータの完全性を維持したままで、予測可能で一貫性のあるトランザクション結果が維持されます。
- 独立性: 進行中のトランザクションが完了するまで他のものから影響を受けないことが保証されるため、中断されることなく複数の当事者が同時に読み取りおよび書き込みできます。
- 永続性: トランザクション由来の変更の永続格納を可能にすることで、システムの障害に直面してもトランザクション由来の変更が残ることが保証されます。
この設計により、データレイクのコスト効率と、すぐに分析に利用できるデータを複数のシステムで利用できるようにする柔軟性のバランスが取られます。これにより、トランザクションの堅実なルールを忠実に守りながら、多数の当事者がデータを同時に表示および書き込むことができるため、現在のデータ管理の問題に対する多用途で信頼性の高いソリューションになっています。
AIとデータレイクハウス
データレイクハウスとAIは、組織の重要な価値を引き出すことができる強力な組み合わせです。それを以下に示します。
データレイクハウスによるAIのメリット:
- すべてのデータへのアクセス: データレイクハウスはあらゆるタイプ (構造化、半構造化、非構造化) のデータを格納します。これにより、トレーニングするAIモデルに豊富で包括的なデータセットが提供され、パフォーマンスが向上し、より精度の高いインサイトが取得できる可能性があります。
- データ品質の向上: データレイクハウスのデータガバナンス機能は、データの一貫性と正確さを確保することに役立ちます。このことは、信頼できるAIモデルをトレーニングするには不可欠です。データが低品質であればバイアスがかかった不正確な結果になるためです。
- 実験に対する柔軟性: データレイクハウスでは、処理されていないrawデータを格納することがサポートされています。そのため、データサイエンティストがさまざまなデータ前処理手法および特徴量エンジニアリング手法で実験して、AIモデルのパフォーマンスを最適化することができます。
- 増大するデータに対する拡張性: AIモデルが進化してトレーニングや再トレーニングにより多くのデータが必要になるにつれて、データレイクハウスはそのような増大するデータニーズを収容できるように容易にスケールアップできます。
- コスト効率: データレイクハウスは、従来型のデータウェアハウスと比べて、大量のデータを格納するコスト効率に優れた方法を提供します。そのため、ストレージコストの超過を気にすることなく、さまざまなAIモデルを実験することができます。
データレイクハウスがAIプロジェクトを促進する方法:
- データ前処理: データレイクハウスには、データのクレンジングおよびトランスフォーメーションのツールを組み込むことができるため、AIモデル用のデータの前処理のプロセスを合理化できます。
- モデルのトレーニングと開発: データレイクハウス環境内で大規模データセットを格納およびアクセスできるため、効率的なモデルのトレーニングと開発のサイクルが促進されます。
- 機械学習モデルの管理: データレイクハウスは、さまざまなバージョンの機械学習モデルおよびその関連するデータを管理するための中央レポジトリとして機能することができます。
- AIモデルの実用化: トレーニング済みのAIモデルに対して、データレイクハウスは本番環境でAIモデルを展開するためのデータパイプラインを提供できます。
全体として、データのストレージ、管理、アクセスのためのセキュアかつスケーラブルで管理の行き届いたプラットフォームを提供することにより、データレイクハウスはAIのライフサイクルで極めて重要な役割を担います。これにより、より的確な意思決定やイノベーションを推進する強力なAIモデルの構築、トレーニング、および展開を支援します。
HPEのデータレイクハウスソリューション
データレイクハウスは、データレイクの柔軟性をデータウェアハウスのデータガバナンスと組み合わせることで、大変革をもたらすデータ管理です。HPE Ezmeral Data Fabricは、オンプレミスおよびクラウドの既存のデータインフラストラクチャとシームレスに統合する、一元化されたデータレイクハウスを提供することで、これをさらに発展させています。
- 一元化と簡素化: HPE Ezmeral Data Fabricは、データサイロを解消し、構造化、半構造化、非構造化のあらゆるデータを一か所で管理します。HPE Ezmeral Data Fabricは、組み込みツールでデータガバナンスを簡素化し、信頼性の高い分析のためにデータ品質とセキュリティを確保します。
- AIと分析の推進: HPE Ezmeral Data Fabricは、高度な分析とAIの取り組み向けの堅牢な基盤を提供します。機械学習モデルのトレーニング用のすべてのデータに簡単にアクセスできるようにし、詳細なデータ探索を実施し、データ主導のイノベーションを促進します。
- オープンソースと柔軟性: オープンソースの基盤上に構築されているEzmeral Data Fabricは、ベンダーロックインを回避し、お客様の特定のデータニーズに適合できる柔軟性をもたらします。オンプレミスのソリューション、クラウドベースのデータレイクハウス、ハイブリッドな手法のどれを必要とする場合でも、Ezmeral Data Fabricはお客様の環境に適応できます。
- 成長に合わせた拡張性: データボリュームの増大に合わせて、お客様のデータストレージおよび処理を簡単にスケーリングできます。Ezmeral Data Fabricは、増大するデータセットに容易に対応できるため、すべての情報を分析できる能力が手に入ります。
- コスト効率: Ezmeral Data Fabricを低コストのストレージソリューションと統合することで、データを効率的に格納できます。そうすることで、データのアクセシビリティも品質も損なうことなく、コストを最適化できます。
HPE Ezmeral Data Fabricは以下のことを促進します。
- rawデータを実用的で有益な情報に変える
- 自信を持ってデータ主導の意思決定を行う
- 高度な分析とAIにより競争力を強化する
HPE GreenLake Edge-to-Cloudプラットフォームで使用できる、この統合データエクスペリエンスでは、チームは既存のデータアクセスパターンを維持したまま、あらゆる場所にあるデータに安全に接続できます。また、オンプレミスに展開されたApache Sparkに最適化された、スケールアップ型データレイクハウスプラットフォームも含まれています。データサイエンティストは、オンプレミス、エッジ、およびパブリッククラウド全体のデータとアプリケーションをサポートする、柔軟な統合分析プラットフォームを活用して、AI/MLワークフローを迅速に進めることができます。