DataOps
DataOpsとは
DataOpsとは、DevOpsアプローチを使用して企業のデータに関する有益な情報を取得するためにデータを管理する方法のことです。このアプローチでは、DevOpsおよびデータサイエンティストが協力して、データをより適切に管理し、迅速なイノベーションを支援する分析を開発します。
DataOpsの仕組み
クラウドコンピューティングの増加、データの飛躍的増大、人工知能の増加に伴って、企業はデータ管理とインフラストラクチャ管理を根本的に簡素化する必要に迫られています。そのような課題に直面している多くの企業は、唯一の解決方法はデータ作成者とデータ利用者の間にある障壁を取り除くことであると気付きました。共同作業する両者が全般的なデータ管理の開発と、ビジネスインテリジェンスのためおよび企業の成功を推進するためにデータを効果的に利用するオーケストレーション構造の開発をリードします。
従来、データ管理とDevOpsは2つの異なる部門に置かれていて、それぞれに特有の課題を抱えています。そして、どちらの部門もますます複雑さを増すタスクに直面していますが、共同作業するための効率的な方法を見つけ出すための取り組みでは協力していません。その上、どちらの部門の職務も重複していません。具体的には、開発者は質の高いコードに重点を置き、データチームは統合、データ品質、ガバナンスに取り組んでいます。
DataOpsはまだ進化の過程にある分野ですが、真のデータ主導になるように転換を図ることに役立つ、唯一最も価値あるプロセスになっています。分析モデルを効率的に構築および展開することで、ユーザーはデータ資産から真の価値をもっと簡単に生成できるようになります。
組織でDataOpsが必要である理由
大多数の企業はデータ管理に苦慮しており、どのデータが格納され、どのデータがコピーされ、どのデータが保護されているかを十分に把握できていません。また、数十年にわたってデータは複数の異なるレポジトリに閉じ込められており、統合するのはほぼ不可能です。さらに、データを管理するプロセス (メンテナンス、テスト、データモデル、ドキュメント、ログ記録など) は、依然として手動で実施されています。
それに加えて、そのような組織では操作やインフラストラクチャ管理に関する一元的な観点が欠如しているため、ストレージ管理 (展開、プロビジョニング、アップデート) などのインフラストラクチャのタスクは後手後手の管理者任せのプロセスのままであり、パフォーマンスやリソースの最適化には時間とコストがかかります。
これらの問題が原因で、組織の時間とコストが無駄になり、リスクが増大しています。これらの問題を解消できないため、ITプロフェッショナルはその対処にくぎ付けにされたままであり、組織にとってのイノベーションを実現できません。エッジからクラウドまでのデータの増大は、この問題をさらに悪化させています。
さらに、すべての組織が膨大な量のデータを保持していますが、その情報を分析するプロセスに本当に着手している組織はわずかです。たとえば、データサイエンティストは、今でもデータのロードやクレンジングなどのデータ準備作業に自分の時間の約45%を費やしています。そして、組織がデータからインテリジェンスやインサイトを導出できた場合、過去にさかのぼることに重点を置いていることがよくあります。バッチ処理で収集されてデータベースに格納されているデータは従来、レポートの生成に使用されていますが、それは過去についてのみです。
DataOpsのメリット
DataOpsはビッグデータからビジネス価値を生み出すことだけに重点を置いています。分散型データアーキテクチャーを構築および維持するためのアジャイルなアプローチとして、その戦略を導入している組織に大きなメリットをもたらします。
DataOpsは、データのスプロール化を制御し、データセキュリティを確保し、収益源を素早く生み出すことに役立ちます。単一の源泉からの膨大な量のデータを取り込み、処理、格納、アクセス、分析、提示して、デジタルトランスフォーメーションを促進できるようになります。DataOps戦略に移行することで、以下のメリットが組織にもたらされます。
· データインサイトをリアルタイムで提供できる
· ビッグデータ処理フレームワークで実行されるデータサイエンスアプリケーションのサイクルタイムを短縮できる
· 自動化および統合された反復可能なプロセスを標準化できる
· 複数のチーム間およびチームメンバー間でより緊密なコミュニケーションと共同作業を推進できる
· データ分析を使用して想定されるすべてのシナリオを予測することで、透明性が高まる
· 再現可能なプロセスを構築し、可能な限りコードを再利用できる
· データ品質が高くなるようにできる
· データソースをキュレートし、インフラストラクチャを管理することで、データサイエンスチームのROIが向上する
· データのセキュリティを確保し、自動化されたガバナンスを通じてデータ保護法に準拠できる
· 組織内と組織外の両方でデータデリバリをスケーリングできる
DataOpsアプローチを使用すると、組織はさまざまなソースからのさまざまな形式のデータを利用して、データから学び、より多くのことをリアルタイムで行う手段を持つことになります。
DataOpsが解決しようとする問題
組織で行うあらゆることがデータによって推進されるため、IoTやAIによって生成される大量のデータストームによって、以前は現れなかったような課題が提示されます。組織が競争力を維持するには、この膨大な量のデータを格納して意味を理解するという問題を解決する必要があります。
そうするには、アプローチを一変させる必要があります。手動での反復的なデータ管理と非効率的なストレージインフラストラクチャから、データから真の価値を収集する力に的を絞るというDataOpsの考え方に切り替える必要があります。そうすることが、インフラストラクチャを管理するオーバーヘッドとコストを軽減しながら、ビジネス・アジリティとスピードを高めるための唯一の方法かもしれません。
データの量は飛躍的に増大し続けるので、ワークロードが不足し、ストレージ容量がテストされ、データの可視性が不明瞭になり、結局はデータ負荷によってパフォーマンスが低下し、リソース最適化が遅くなります。問題のいくつかを以下に示します。
· まったく異なる多数のソースからのデータ収集: 重複なしで整理するにはどのようにすればよいか
· データのガバナンスと所有権: 誰が監視し、誰が責任を持つか
· データの統合: 従来型のシステム、データベース、データレイク、データウェアハウスにまたがるデータの流れをスムーズにする方法。
そして、膨大な量のデータに埋もれているインサイトをどのようにして取り出して、ビジネスを変革し、競争力を高めるか。そこでDataOpsの出番です。
DataOpsの中核となるアイデアは、意思決定を行ってビジネスを遂行するための真実を語る単一のソースを提供する方法で、ますます増え続けるデータソースからの多数のデータパイプラインを管理するという課題を解決することです。DataOpsは、多数のデータソースにわたって一貫性のあるビューを構築し、企業全体でデータを使用できるようにし、データガバナンスを向上させます。
DataOpsの原則とは
基本的に、DataOpsは分析のためのデータの集約、準備、管理、進展のライフサイクルを効率化することに取り組みます。データで強化されたアプリケーションのアジリティ、有用性、ガバナンス、品質に関してデータ管理を大幅に向上させます。
DataOpsの概念を作り出しているときに、データサイエンティストは、そのプロセスをDataOpsの基本理念の一部として規定するためのいくつかの原則に同意しました。中核となる原則を以下に示します。
· 作業のパフォーマンス: データ分析のパフォーマンス評価では、堅固なフレームワークやシステムへの正確なデータの取り込みの効率的に注目します。
· 分析はコードである: データをどのように扱うべきかを記述することは分析において基本的なことであり、生成されるコードによって、どのようなインサイトが提供されるかが決まります。
· 再現可能にする: データから、ハードウェアやソフトウェアの構成、そして各ツールを構成するコードまで、プロセスのあらゆる側面はバージョン付けされている必要があります。
· 使い捨ての環境: 分離された安全な、容易に構築できる使い捨ての技術環境で作業を行うことで、本番環境をミラーリングしながらコストを最小限に抑えることができます。
· シンプルさと効率: 技術的卓越性、優れた設計、効率化された作業は、より優れた柔軟性と有効性をもたらします。
· 分析は製造である: 分析によるインサイトを効果的に提供するには、分析パイプラインが無駄のない製造とよく似たプロセス思考に重点を置いている必要があります。
· 品質が最優先: ミス (ポカヨケ) を防ぐには、オペレーターが継続的にフィードバックを与えることや、異常やコード/構成/データでのセキュリティ上の問題を自動的に検出 (自動化) する分析パイプラインが必要です。
· 監視が極めて重要: 予期しない変動を検出し、運用の統計、パフォーマンス、セキュリティ、品質に関する情報を導出するには、継続的に監視する必要があります。
· サイクルタイムを短縮する: 有用な分析製品をデリバリするには、最終的にはその製品を再利用する反復可能な製造プロセスを使用して、アイデアから開発やリリースまでのプロセス全体を迅速かつ容易に完了する必要があります。
HPEとDataOps
HPEによる統合DataOpsはHPE Intelligent Data Platformで実現されており、データとインフラストラクチャの管理が物理インフラストラクチャから抽象化されているSaaSベースのコントロールプレーンを使用して、ITがデータとインフラストラクチャを管理できます。
このアーキテクチャーのアプローチでは、オンプレミスのソフトウェアの管理と維持の複雑さと断片化が解消され、それに伴うコストが不要になり、データサービスとインフラストラクチャサービスの展開、管理、スケーリング、デリバリは組織から見えなくなります。さらに、このアプローチでは、ワンクリックのポリシーとAPI (アプリケーションプログラミングインターフェイス) により、グローバルに分散されているデータインフラストラクチャ全体の管理が大規模に自動化されます。
HPE GreenLakeを通じてデリバリされ、新しいデータエクスペリエンスを提供する、独創的なクラウドネイティブアーキテクチャーであり、データがどこに置かれていてもクラウド運用エクスペリエンスをもたらし、一元化されたデータ管理のための基盤を定めています。主なイノベーションを以下に示します。
· Data Services Cloud Console: このコンソールは、コントロールプレーンが基盤ハードウェアから分離されてクラウドに移されているので、データインフラストラクチャがどこに置かれていてもクラウドのアジリティをもたらします。このコンソールは単一のWebインターフェイスで管理が一元化されているので、グローバルな可視性およびエッジからクラウドまで一貫性のあるエクスペリエンスを提供します。このような方法でコントロールを抽象化することによって、データサービスのスイートを、ライフサイクル全体でインフラストラクチャを管理する方法を根本的に簡素化できるようになっています。
· Cloud Data Services: このソフトウェアサブスクリプションサービスのスイートでは、AI主導でアプリケーション中心のアプローチが使用されていて、どこからでもデータインフラストラクチャをグローバルに管理できます。サブスクライバーは、セルフサービスでオンデマンドのプロビジョニングを利用でき、推測に頼る作業が不要になり、サービスレベル目標が最適化されます。
· HPE Alletra: これは、オールNVMeのクラウドネイティブなデータインフラストラクチャです。Data Services Cloud Consoleによってネイティブに管理されるHPE Alletraでは、オンデマンドのas a serviceでクラウド運用エクスペリエンスが提供されます。妥協することなくあらゆるアプリケーションを実行できるアーキテクチャーの柔軟性を提供できるように設計されている、ワークロードに最適化されたシステムのポートフォリオです。
· HPE InfoSight: 業界で最も先進的かつ成熟したAIOpsプラットフォームです。パフォーマンス、可用性、リソース管理を最適化し、インフラストラクチャを見えなくする、AI搭載の自律データ運用により、課題を解消してその対処に費やす無駄な時間をなくします。