データパイプライン
データパイプラインとは
データパイプラインを使用して、データをソースからデータレイクやデータウェアハウスなどの保存先に移動できます。
データパイプラインのコンポーネント
データパイプラインは、3つの段階 (データソース、データ処理またはデータ変換のプロセス、データ保存先またはデータストレージの場所) で構成されています。データソースは、データが生成される場所を指します。主なデータソースとして、データベース、CRMシステム、IoTセンサーなどがあります。データ処理またはデータ変換の段階には、転送、変換、ソート、統合、重複排除、検証、分析など、データを変更するすべての作業が含まれます。データパイプラインの最終段階であるデータストレージでは、変換後のデータが保存され、ユーザーがアクセスできるようになります。データストレージの場所としてよく利用されているのがデータウェアハウス、データレイク、データマートです。
ETLパイプラインは、データパイプラインのサブカテゴリとみなされています。ETLパイプラインとデータパイプラインの主な違いは、ETLパイプラインの方がデータを変換する方法が多いことです。たとえば、ETLパイプラインでは特定の指標データを統合することで簡単に分析できます。またETLパイプラインは、ネットワークトラフィックが遅延してリアルタイムではないときなど、所定のスケジュールでデータを転送でき、継続的ではなく一定の間隔でデータ転送が行えます。
データパイプラインのタイプ
リアルタイムパイプライン
リアルタイムパイプラインは主に、金融情報業界、または分析や気象予報などの配信サービス経由で直接データを処理する企業で利用されています。このシステムは、数百万件のイベントを大規模に処理できるアーキテクチャーにより、データを即座に処理することで、信頼性の高いインサイトを提供します。
オープンソースパイプライン
オープンソースパイプラインは、小規模な企業で利用されている低コストのシステムで、誰でもデータを移動、処理、保存できます。このタイプのパイプラインをサポートするツールは、リアルタイムまたはクラウドベースのデータパイプラインシステムをサポートするものよりも低コストです。また、誰でも利用できる仕様となっており、ユースケースに合わせてカスタマイズする必要があります。
クラウドパイプライン
クラウドパイプラインは、その名のとおり、クラウドベースのデータを利用、変換、分析するものです。オンサイトのストレージインフラストラクチャが不要になり、組織はクラウドベースインフラストラクチャ内でデータを収集および分析できます。サービスの性質上、クラウドネイティブパイプラインの多くに広範なセキュリティソリューションが含まれています。
バッチ処理パイプライン
バッチ処理パイプラインは、データパイプラインストレージシステムで最も人気のある方式の1つです。膨大なデータを継続的に移動および保存するために使用されるケースが多く、組織はバッチ処理パイプラインシステムを利用してデータを変換および移動したうえで保存や分析を行いますが、莫大な量のデータを移動するため、リアルタイムシステムに比べて処理速度は遅くなります。
ストリーミングパイプライン
ストリーミングパイプラインは、バッチ処理パイプラインとともに、最も一般的なデータパイプライン方式の1つです。ストリーミングパイプラインでは、ユーザーがさまざまなデータソースから構造化データと非構造化データの両方を取得できます。
データパイプラインアーキテクチャーとは
データパイプラインアーキテクチャーとは、データソース、データ処理システム、分析ツールおよびアプリケーションを収集するシステムを指します。
データパイプラインアーキテクチャーでは、すべての関連データが確実に収集されるため、データサイエンティストは、データから挙動に関するインサイトを引き出し、カスタマージャーニーを効率的に推進してユーザーエクスペリエンスを拡充できます。データパイプラインはrawデータを取得し、それを適切なストレージサイトに転送して実用的なインサイトに変換します。アーキテクチャーは動的に階層化されており、取得に始まって継続的な監視で終わります。
基本的にrawデータには無数のデータポイントが含まれており、数が多すぎるためにインサイトを取得することは困難です。データパイプラインのアーキテクチャーに含まれるシステムは、データを取得、構造化、移動してインサイトを引き出し、分析することで詳細に把握および活用できるように作成されています。通常は、自動化、ソフトウェア、データストレージソリューションによって実現されます。
データの保管場所は、収集されるデータの形式によって決まります。データを適切な保管場所に送ることは、データウェアハウスなどの構造化されたストレージシステム内のマスターデータ、またはデータレイク内で緩く構造化されたデータを保存するオプションとともに、データパイプラインアーキテクチャーにおいて非常に重要なプロセスです。データアナリストは、データレイク内で緩く構造化されたデータからインサイトを取得するか、中央のストレージにあるマスターデータを分析することができます。ストレージ環境に適切に配置されていなければ、アーキテクチャーにおける実際の管理が困難になり、将来の用途も制限されます。
HPEとデータパイプライン
HPE Ezmeralは、データファーストのモダナイゼーションを推進できるように設計されたハイブリッド型分析およびデータサイエンスプラットフォームであり、企業は場所を問わずデータの価値を引き出すことができます。HPE EzmeralがサポートするHPE GreenLake分析サービスを利用すれば、エッジからクラウドまでのあらゆるデータを一元化、モダナイズ、および分析できます。
HPE Ezmeralが、特定のソリューションやクラウドベースのソリューションでは得られない選択肢、効率、柔軟性をもたらすことで、お客様はデータの価値を引き出してイノベーションを加速できます。具体的には、次のようなメリットを提供します。
100%オープンソースをベースとして、オンプレミスまたはハイブリッド/マルチクラウド環境のインフラストラクチャで実行されているクラウドネイティブアプリケーションと非クラウドネイティブ (レガシー) アプリケーションの両方に対応できる、統合ソフトウェアプラットフォームを提供します。
ハイパフォーマンス分析に最適化された、業界初の統合データファブリックにより、データを一元化するとともにアプリケーションをモダナイズします。ファイル、オブジェクト、イベントストリーム、NoSQLデータベースを単一の論理インフラストラクチャおよびファイルシステムに統合し、同期されたデータにグローバルにアクセスできるようにすることで、インサイトを取得するまでの時間を短縮します。
DevOpsのようなスピードとアジリティにクラウドのようなエクスペリエンスを組み合わせてワークロードの処理を迅速化するソリューションで、MLモデルの導入に伴う課題を解決します。
広範な分析およびMLツールを活用する単一のプラットフォームにより、チーム間で整合性のあるエクスペリエンスを提供します。組み込みの自動化とクラウドネイティブエクスペリエンスによってユーザーやツールから適切なデータ、コンピュートエンジン、およびストレージへの接続が簡素化され、チームがデータの価値を引き出す作業に注力できます。
単一のハイブリッドデータレイクハウスに統合されたオープンソースのツールとフレームワークにより、展開の自由度と柔軟性が向上します。統合アプリストアまたはHPE Ezmeral Marketplaceでは、信頼できるISVパートナーによる検証済みのフルスタックソリューションをベースとする、効率的かつカスタマイズされたエンジンおよび環境を迅速に構築できます。