データリネージ
データリネージとは

データリネージとは、さまざまな処理や変換がデータに加えられる過程や多様なシステム間をデータが通過する過程におけるデータの移動経路や変更プロセスを追跡するプロセスを指します。データリネージは組織の情報エコシステム内を移動する際にデータがどのように取得、変更されるかの説明となります。データの完全性を検証し、コードのトラブルシューティングを行い、法律や規制への準拠を保証するため、組織はデータリネージを使用します。
目次

    データリネージが重要な理由とは

    データリネージが欠かせない理由に重要な論点がいくつかあります。

    • データ品質: データリネージはデータがどのように変換されるかを明らかにし、エラーや不整合を検出して、データ品質を向上させます。
    • データの信頼性: データ経路を把握することで、正確性に対する信頼が高まり、分析と意思決定に対する信頼が強化されます。
    • 再現性: データリネージは入力データとそれに対応する必要な変換をすべてキャプチャするため、あらゆる出力データセットを再現できます。
    • 規制コンプライアンス: データリネージは説明責任のあるデータ処理および使用記録を提供するため、厳格な規制を適応します。
    • データガバナンス: データリネージはデータフローを追跡し、ポリシー順守を維持することでガバナンスの取組みをサポートします。
    • トラブルシューティング: データリネージでデータの問題の検出と問題解決が速くなります。
    • コラボレーション: 共有データリネージはデータ経路に共通理解を促し、チーム間のコラボレーションを強化します。
    • ライフサイクル管理: データリネージは作成ステージからアーカイブステージに至るデータライフサイクル管理を通知します。
    • 変更管理: データリネージは制御されたデータシステムの変更をガイドし、サービス中断を最小限に抑えます。
    • 監査: データリネージは履歴レコードです。必須の処理や変換が完了したことを検証します。
    • 影響分析: データリネージは変更による下流への影響の可能性を予測し、実装中の予期せぬ事態を最小限に抑えます。

    データリネージのタイプとは

    追跡の焦点と方向に基づき、データリネージはいくつかの異なるタイプに分類できます。データリネージの主な形式は次のとおりです。

    • フォワードデータリネージ: ソースからデスティネーションまでデータをトレースします。データパイプラインでデータがどのように変換、処理されるかの説明となります。データ変換、品質の問題、データから分析情報やレポートが生成される仕組みの検出に有益です。
    • バックワードデータリネージ: データは反対方向にフローします。レポートまたはビジュアライゼーションから始まり、データソースに戻ります。レポート内のデータポイントの説明となり、結果検証に有益です。
    • ホリゾンタルデータリネージ: 処理または変換サイクル内のデータマイグレーションを追跡します。あるステップでデータがどのように変更されるかの説明となります。データ変換の問題のデバッグ、発見に有益です。
    • バーティカルデータリネージ: ソースシステムからデータエコシステム内のデスティネーションまでデータをたどります。データがデータのソース、インテグレーション、変換、分析をたどるフローをまとめます。
    • エンドツーエンドデータリネージ: データの作成から使用までを追跡、プロセスとシステム全体のフローをカバーします。
    • パーシャルデータリネージ: 特定のデータサブセットまたはプロセスに焦点を絞り、エレメントのリネージを理解するのに有益です。
    • クロスシステムデータリネージ: システム間でデータを追跡、データ交換とデータインテグレーションの理解を支援します。
    • イントラシステムデータリネージ: あるシステム内のデータフローをトレースします。相互作用と依存関係を理解するのに有益です。

    データリネージの仕組み

    • データリネージは処理ステージを通じてデータの足跡を追跡して、システム間でデータがどのように変化するかを示します。データベース、データウェアハウス、データレイク、ファイルなどのデータソースを識別することから始まります。
    • 最新のシステムやツールにはデータリネージを自動的にキャプチャして文書化するものもあり、手動で追跡する必要がありません。
    • フィルタリングや計算などのデータの移動は、処理済みとして記録されます。
    • データリネージツールはさまざまなデータセットと変換間の関係を確立し、データフローを表すマップを作成します。
    • 一部のデータリネージソリューションは図表によるビジュアライゼーションが提供され、理解が促進されます。
    • データリネージを使用すると、さまざまなデータのエレメント、プロセス、システム間の依存関係を分析できます。これは変更後の影響分析には欠かせません。
    • データリネージを使用すると、エラーや異常の原因を遡って追跡できるため、トラブルシューティングがより効率的になります。
    • バージョン管理と履歴追跡ができるデータリネージソリューションもあって、データの経時変化を確認できます。
    • チーム間のコラボレーションが可能になり、データのライフサイクルを理解し、これに寄与できます。
    • データリネージは規制遵守に欠かせないデータの移動と変換の明確な監査証跡を提供することで、データガバナンスをサポートします。
    • 影響評価では、データリネージで変更が下流のプロセスに与える影響を予測します。

    データリネージの最終目標としては、透明性の提供、データ品質の向上、データの起源と変換を明確に理解したうえで適切な意思決定を保証します。

    データリネージのユースケース

    データリネージには業界や機能にわたってさまざまな実用的なユースケースがあります。
    • 財務コンプライアンス: データリネージを使用して正確な財務報告を保証し、規制基準を満たします。
    • 医療データのプライバシー: HIPAAと個人情報保護方針の順守のため、患者データを追跡します。
    • 小売在庫管理: 在庫データ追跡で在庫管理を最適化、無駄を削減します。
    • 製造品質: データリネージで製品品質を向上させ、生産の問題を検出します。
    • 医薬品研究: 医薬品開発と治療のため、信頼できる研究データを保証します。
    • カスタマー・エクスペリエンス: データに基づくパーソナライゼーションに関するインサイトを活用して顧客とのインタラクションを強化します。
    • 政府機関の透明性: 効率的なサービスのためにデータの透明性とアカウンタビリティを維持します。
    • 不正防止: トランザクションパターンを追跡して不正行為を検出、防止します。

    データリネージを使用するその他の分野には、HR分析、ターゲットマーケティング、エネルギー管理、リスク評価、サプライチェーン最適化、メディアコンテンツ配信、環境モニタリングなどがあります。

    HPEとデータリネージ

    Hewlett Packard Enterprise (HPE) は、組織がデータの力を活用して価値あるインサイトに変換できるようにするソリューションを積極的に提供しています。データリネージに関するHPEの関連情報は次のとおりです。

    HPE Machine Learning Data Management Software: データのパイプライン構築とバージョン付けのツールで、データ処理や機械学習のユースケースに使用できます。このソフトウェアは、データパイプライン、コード、データセットのバージョンを管理することで、エンドツーエンドデータリネージをサポートします。

    製品提供に加え、HPEはデータリネージと重なるより広範な概念に関連するリソースとインサイトも提供しています。

    機械学習: HPEの機械学習への取組みはデータ内のパターンを認識するアルゴリズムをトレーニングすることで高度な分析を実現する取組みを浮き彫りにし、トランスフォーメーションをもたらすインサイトで企業を支援するという当社の情熱を象徴するものです。

    データ管理: HPEのデータ管理への取組みは、正確なデータフローと信頼性の追跡を重視することで、データリネージの原則に沿って組織がデータ資産を効率的に活用できるように支援するという情熱を象徴するものです。

    データパイプライン: HPEのデータパイプラインに対する探求はデータプロセスの効率の最適化の重視を反映するもので、ステージ間およびシステム間のデータ移動に関するデータリネージに対する理解を示しています。

    関連テクノロジー

    データをインテリジェンスに変える

    HPE Machine Learning Data Management

    関連トピック