画像をタップして拡大する

2021年9月10日

データ主導型企業における分析の最適な運用方法

分析には適切かつ十分なデータとそれを支える基盤の構築が欠かせません。
2020年3月13日、米国政府はCOVID-19に関する国家緊急事態を宣言し、それを受けてカリフォルニア州で全米初の自宅待機命令が発出されました。それから数日のうちに世界各国でロックダウン命令が出されて、人々の暮らしや仕事はそれまでと一変しました。

このように全世界が停止状態に追い込まれる前から、ボルチモアのジョンズ・ホプキンス大学の医療研究者らと連携しているデータサイエンティストチームは、新型コロナウイルスを中国武漢における発生初期段階から追跡しており、高度なデータ分析を駆使して米国内および全世界にわたる感染拡大を予測していました。こうした分析ワークロードは、感染抑制のための取り組みや、収束に向けたワクチンの供給に役立つことが期待されています。

分析ワークロードは、さまざまな手法でデータを多角的に検証することで、その中に隠れた知見を引き出します。

分析とは何か

データ主導型企業にとって分析はビジネスの心臓部です。企業が競争力を高めるための最良の方法として、新たに収集したデータや蓄積データから知見を引き出すことの重要性は広く認識されています。しかしながら分析ワークロードの構築と運用に何が必要であるかは、十分に理解されているとは言えません。企業が真にデータ主導型であるためには、この点を把握することが大切です。

まずは用語の定義を明確にしましょう。従来のデータワークロードは通常短時間で終了し、トランザクショナルな性質を持ち、予測可能な結果を生み出すように設計されています。その典型的な例が企業の課金システムや発注システムです。こうしたワークロードは、大量のデータを処理することはあっても、そのデータの意味を徹底的に解明するようには設計されていません。

分析ワークロードはその正反対で、(一般的に膨大であることが多い) データを処理するだけでなく、その意味を解明できるように設計されています。分析ワークロードのデータに対するアプローチは包括的で、さまざまな手法でデータを多角的に検証することで、その中に隠れた知見を引き出します。

分析ワークロードの特徴としては、処理対象データの多様性と複雑性、高速なデータ処理、そして結果の予測不可能性が挙げられます。

具体例としては、テスト結果に対する従来型のA/B分析や不正検知のための異常行動予測などが挙げられ、現在のパンデミックに関連するものとしては、コロナウイルスの世界規模の感染拡大を予測して、ワクチンの最適な生産量や各国への供給量を算出するといった事例が考えられます。

分析ワークロードが企業データに課す高い要求は、従来のデータ処理システムが対応可能なレベルを超えています。分析ワークロードに対応するためには、ユーザーが情報を多角的かつリアルタイムで探索してモデル化することが可能な、新しいタイプのアーキテクチャーが求められます。

それでは分析ワークロードを作成し、適正なパフォーマンスで運用するためには、具体的に何が必要でしょうか。以下では、分析を主な用途とするITインフラストラクチャの設計にあたり、企業が考慮すべきベストプラクティスをご紹介します。

データの冗長性と耐障害性の確保

分析ワークロードを効果的に運用するためには、それを支える適切なデータストレージが欠かせません。ストレージの計画と構成の中核となるのが、分析ワークロードの中断を回避するための冗長性の組み込みです。

分析ワークロードに関係するストレージディスク、ボリューム、データクラスターなどがダウンした場合に、代替のディスク、ボリューム、クラスターが即座に起動して役割を引き継げるようにフェイルセーフを確保することが大切になります。

アーリーアダプターがベストプラクティスとして推奨するのが、分析ワークロードのパフォーマンスニーズとディザスタリカバリニーズのバランスに配慮したデータストレージプールの構築です。不測の事態が発生しても、2番目の冗長ストレージシステムへの引き継ぎが自動的に行われることで、中断なしにワークロードを継続できます。

多くのエキスパートが推奨するのが、データを3回複製するデータストレージシステムの構築です。この場合、災害がいつ発生しても、データのコピーが常に3つ存在しており、各コピーはデータストレージネットワーク内の異なるノード上に置かれています。万一2つのデータコピーに影響を及ぼすような障害が発生した場合でも、分析ワークロードは残る1つのデータコピーを使用して継続できます。

コンテナテクノロジーの導入

現代企業の分析ワークロードで使用されるデータは、さまざまな場所に存在しています。これらのデータの保管、検索、取り出しに加えて、分析に必要な膨大なコンピューティングリソースと柔軟性を考えると、従来のネットワークデータシステムでは対応できないことは明らかです。

この問題の解決策となるのがコンテナテクノロジーです。コンテナはすでにDevOps、クラウドコンピューティング、先進的アプリケーション、マイクロサービスなどに欠かせないものとなっており、分析の分野でも利用が拡大しています。

エンタープライズ分析にいち早く取り組んでいるリーダーらがベストプラクティスとして推奨するのが、データプラットフォーム アーキテクチャーの基本的要素 (レイヤー) としてコンテナを使用する分析ワークロードの構築です。コンテナには数多くのメリットがありますが、とりわけ注目すべきはその柔軟性で、状況の変化やデータから得られた新たな知見に応じてワークロードを迅速に拡大/縮小させたり、システム間でワークロードを移動させたりすることが可能になります。

コンテナを利用すれば、すべてを一から再構築することなく、新たな手法によるデータ分析をすばやく実現できます。コンテナは管理と運用を飛躍的に簡素化および合理化し、時間とコストの大幅な削減を可能にするとともに、一元的なアクセスポイントとダッシュボードをユーザーに提供します。

Kubernetesによるコンテナオーケストレーション テクノロジーも、分析ワークロードにおいて重要な役割を担っています。Kubernetesは柔軟性に優れており、データソース自体のメモリを大量に消費することなく、コンテナを組み合わせたり、別のデータソースに移動させたりすることが可能です。言い換えれば、Kubernetesは分析ワークロードのコンピュート部分とデータを切り離します。

ベストプラクティスに従って、分析ワークロードを支えるアーキテクチャーの構築にKubernetesを使用することで、時間とコストを大幅に削減しながら、高速かつ効率的なデータ処理を実現できます。Kubernetes環境ではデータは同じ場所に留まり、あたかも花に向かう蜂のように、分析ワークロードがデータのある場所に移動します。

スピードが不可欠

分析ワークロードに必要なデータの収集、保管、および取り出しにはスピードが求められます。データのボリューム、ソースの多様性 (クラウドやエッジデバイスから提供されるリアルタイムの情報など)、分析の複雑さなどのファクターを考慮すると、最低でも1Gbpsのネットワーク速度が必要です。

分析ワークロードの高速化を目指すうえで万能の手法は存在しません。どの程度の速度が必要かは、使用しているストレージメディアの種類や、実行する分析の種類によっても異なります。

分析ワークロードで使用されるのが主としてバッチ処理ソースから収集されるデータである場合は1Gbpsでも問題ありませんが、リアルタイムのソーシングや予測を行うような大規模かつ複雑な分析環境の場合、この速度では不十分です。分析テクノロジーのリーダーらは、ベストプラクティスとして、最低でも2Gbpsの速度を確保するよう計画することを推奨しています。

設計にあたっては、初期のユースケースだけでなく、将来的な要件も考慮することが大切です。処理すべきデータ量は増え続けており、データ処理システムの性能も向上しています。2Gbps以上の速度で動作する最新のデータプラットフォームは、多数の分析ワークロードによって必要とされるストレージファイルやデータ転送速度に対応でき、企業の成長に合わせた拡張も容易です。

ボリュームミラーリング

データ転送速度が向上すると、データボリュームのミラーリングも可能になります。ボリュームミラーリングとは、その名称が示すとおり、リアルタイムで捕捉されるデータのミラーイメージです。

ディザスタプランニングとリカバリのベストプラクティスとしては、地理的に異なる2つの場所に、一方が他方のダイレクトミラーイメージ (コピー) となる同一の分析ワークロードを作成することが推奨されます。これらのワークロードの一方が本番ワークロードで、そのミラーツインがディザスタリカバリ ワークロードです。ボリュームミラーリングを使用することで、企業は事前にプログラミングされた定期的な間隔で本番ワークロード内のデータを複製 (ミラーリング) して、ディザスタリカバリワークロードに自動的に転送できます。

分析とデータ主導型企業

あらゆる企業がデータ主導型のデジタルエンタープライズへの道を歩んでいます。目標到達のカギとなるのが、真のビジネス価値と競争優位性をもたらす知見を得るための、分析機能を組み込んだ先進的なデータプラットフォームです。分析ワークロードのパワーを最大限に引き出すためには、適切なアーキテクチャーの構築が欠かせませんが、ベストプラクティスを活用することで、より迅速かつ効率的に適正な環境を構築し、少ない負担で大きな成果を上げることが可能になります。

リーダーへのアドバイス

  • データの冗長性と耐障害性を向上させることで、分析に必要なデータへの迅速かつ中断のないアクセスを実現できます。
  • 先進的な分析には最低2Gbpsの高速ネットワークが必要です。
  • 分析アプリケーションのためのアーキテクチャーのベストプラクティスとして、Kubernetesによりオーケストレーションされるコンテナ設計が推奨されます。

この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもヒューレット・パッカード エンタープライズの見解を反映しているわけではありません。

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。

enterprise.nxt
ニュースレターのご登録

enterprise.nxtから最新のニュースをメールで配信します。