Hadoopを使用してビッグデータ分析を活用する3つの方法

多くの企業では、オープンソースのHadoopフレームワークを使用してビッグデータのプロジェクトに取り組みたいと考えていますが、技術や費用、管理の問題について懸念しています。この記事では、3つの異なるタイプのHadoop展開について、基本的な留意事項を説明します。

世界はデータにあふれています。データの提供元は多岐にわたっており、たとえば、アプリケーション、モバイルデバイス、POS端末、組み立てラインのセンサー、産業用ロボット、ウェアハウスのスキャナー、ビデオカメラ、さらには、自動運転車やドローンといった成長しつつある新しいテクノロジーなどが挙げられます。

企業やその他の組織が利用できるデータが増加するにつれて、それらのデータから価値を引き出す方法が緊急の優先課題となっています。ビッグデータ分析では、大量のデータセットのパターンと相関を識別し、その結果を現実の問題に適用できます。

たとえば、金融サービス業界では、銀行や証券会社はビッグデータを使用してコンプライアンスの取り組みをサポートし、マネーロンダリングや不正の兆候を突き止めます。製造業では、ビッグデータを使用して、ボトルネック分析、品質管理の改善、サプライチェーンの最適化を行うことができます。小売業者は、ビッグデータを使用して、顧客セグメンテーションやストアの設計を改善できます。

このような目的にビッグデータ分析を活用することで、さらに多くの企業がテクノロジーへの投資を行うようになります。IDCによれば、ビッグデータとビジネス分析による世界的な収益は、今後数年にわたって11.9パーセントの複合年間成長率を示し、2020年までに2,100億ドル以上に達すると見込まれています。

IDCインサイト: ITサービスにおけるデジタルトランスフォーメーションの動向

ビッグデータを処理する場合、オープンソースのApache Hadoopのエコシステムは、主要なベンダーによって幅広いサポートが提供されており、従来のリレーショナルデータベース管理システムと比べて、優れた費用効果とスケーラビリティを実現できます。Hadoopでは、顧客の購入行動の詳細な分析から、特定のパターンに一致する数百万枚の写真の探索にいたるまで、あらゆる処理を強力にサポートすることができます。また、従来のデータベースとは異なり、Hadoopは構造化データと非構造化データの両方を処理できます。Netflix、JPMorgan、BMWなどのさまざまな企業がHadoopとビッグデータを使用して自社の顧客を把握し、ビジネスを向上させていることは不思議ではありません。

Hadoopに基づいてビッグデータのプロジェクトを立ち上げるには、以下のような複数の方法があります。

  1. 会社のデータセンター内にHadoopを展開する
  2. クラウドベースのHadoopサービスを活用する
  3. 経験豊富なベンダーによってサポートされ運用されるオンプレミスのHadoopサービスを使用する

これら3つの手法の利点と欠点について、要点を説明します。

 

会社が社内のデータセンターへのHadoop展開について懸念する理由

会社は、独自のビッグデータアプリケーションを使用するためにHadoopに関心を持つかもしれません。また、Hadoopをサービスとして顧客に提供する必要があるかもしれません。それにもかかわらず、Hadoopをサポートするように社内のデータセンターを構成するには、以下のような課題を伴います。

  • 技術。多くの組織は、この非常に複雑なテクノロジーをセットアップしたり管理したりするための専門知識を社内に持っていない場合があります。
  • 価値実現時間。ビジネスとITのマネージャーは、ビッグデータから新しく有益な情報を得ることや、ビッグデータをサービスとして顧客に提供することに関心があります。機能するクラスターを稼働させるために必要な時間によって、勝者と敗者が決まる可能性があり、迅速な企業ほど競争上の優位性を得ることができます。
  • セキュリティと制御。銀行業務の詳細情報、健康に関するデータ、コンプライアンス要件の対象となる記録などの機密データには、セキュリティ上の問題が伴います。
  • 費用。会社は、Hadoopを実行するための継続的なコストと、容量を拡張するために必要な費用を把握したいと考えています。

Hadoopの技術要件は独特なものです。分散コンピューティングのモデルは、特定の構成を持つハードウェア環境に合わせて設計されました。これにより、ハードウェアのセットアップが容易になります。構造化データと非構造化データ (コールログ、ビデオフィード、トランザクションレコード、またはその他のデータ形式を利用できます) の両方が、専用のストレージシステムではなく、ローカルのディスクドライブを搭載するサーバーノードに格納されます。

Hadoopクラスターでは、ヘッドノードが管理タスクと制御タスクを処理します。各「ワーカー」ノードは、データの小さなサブセットを保持し、複数のサーバー上でコマンドを並行処理します。1台のサーバーに障害が発生しても、同じデータを保持するサーバーが他に2台あるため、処理を続行できます。Hadoopは容量の制限やシステムの設定ミスのために停止する可能性はありますが、ハードウェアの障害によってHadoopをクラッシュさせることは困難です。さらに、Hadoopは迅速に拡張できるように設計されており、容量を追加したり、単にワーカーノードを追加したりする作業を簡単に行うことができます。このようなフォールトトレランスとスケーラビリティが内蔵されているため、Hadoopは魅力的なフレームワークになっています。

Hadoopの複雑さは、ハードウェアではなくむしろソフトウェアにあります。そのエコシステムは、一風変わった名前 (YARN、Spark、Pig、Mahoutなど) を持つ多数の標準ツール群と、ハードウェア上に配置される専用のアプリケーションで構成されます。これらのコンポーネントをすべて同期させて、基盤となるオペレーティングシステム、ミドルウェア、サーバーハードウェアのファームウェアと協調して動作させることは大きな課題です。私が話をした顧客の中には、ビッグデータ分析を必要としていても、すべての要素をまとめるために必要なエンジニアリングのスキルを保有していない組織がありました。たとえ、組織にデータサイエンティストとエンジニアのスタッフがそろっていても、運用可能なHadoop環境を構築するのにどれくらいの時間がかかるかという点は、大きな懸念事項です。

 

クラウド環境のHadoopは万人の役に立つわけではありません

クラウド環境でのHadoop展開への関心が高まっています。このアイデアはシンプルです。Hadoop環境をデータセンターで稼働する代わりに、クラウドサービスプロバイダーが提供する仮想Hadoopクラスター上でデータと分析が実行されます。

クラウドベースのHadoopサービスを提供するベンダーは、複雑なHadoop展開の苦痛を解消し、スタッフの数やその他の運用コストを削減できると請け合います。これは、Hadoopを独自に展開して管理するための技術的な専門知識を持たない企業にとっては、魅力的な提案です。

ただし、パブリッククラウドは万人の役に立つわけではありません。特定市場の顧客やサービスプロバイダーの多くは、セキュリティに関する制限や規制の要件のため、また、遅延やクラウドサービスの障害を避けるために、機密データをクラウドにアップロードしません。

 

信頼できるサービスプロバイダーによってサポートされ運用されるオンプレミスのHadoop

会社が複雑さとクラウドに対する懸念に対処できる3つ目の選択肢があります。信頼できるパートナーによってサポートされ運用されるオンプレミスのHadoopアーキテクチャーです。

このような関係では、パートナーはコンサルタントを雇ってHadoopクラスターをセットアップするだけにとどまりません。Hadoopについて深い専門知識を持つパートナーは、動作環境を構築するために必要な早期の困難な作業を引き受けて、すばやく簡単に展開できる重要なリファレンスアーキテクチャーを提供できます。重要なのは、クライアントがHadoopエコシステムを運用し、必要に応じて拡張できるように、パートナーが長期にわたってサポートすることになる点です。管理権は顧客の側にあり、これはクラウドサービスプロバイダーとは対照的です。

パートナーによってサポートされ運用されるオンプレミスのHadoopアーキテクチャーは、キャパシティプランニングに関する懸念にも対処できます。この問題は、利用できる容量が十分でないか、まったく使用されていないリソースをオーバープロビジョニングして、そのコスト負担を心配する会社にとって大きな頭痛の種です。

ベンダーによっては、この種のHadoop展開で従量制課金が提供される場合があります。この課金方式は、急速な成長や予測不能なニーズが見込まれるビッグデータ環境には不可欠です。従量制の使用量は、計算ノードとストレージノードの数によって決まります。プロセッサー数やユーザーライセンス数は考慮されず、時間単位のサービス料金はありません。プラットフォームの拡張は簡単で、追加のワーカーノードをプロビジョニングして容量を増やすだけで済みます。このビッグデータ利用モデルは、クラウドベースの価格設定と似ていますが、データが他社のサーバーではなくオンプレミスに格納されているため、セキュリティ上の利点があります。

Hadoopは、さまざまなデータソースから価値を引き出す新しい方法を切り開きました。ビッグデータ分析にHadoopを使用すると、新製品の開発や効率の向上につながり、競争上の優位性や顧客行動に関する洞察を手に入れることができます。Hadoopサービスの市場が成熟するにつれて、企業は、ビッグデータプロジェクトの展開と管理について、より多くの選択肢を得られるようになります。これにより、技術的なハードルが下がるだけでなく、Hadoopをすばやく展開してビッグデータ分析から迅速に洞察を得られるので、価値実現時間を短縮できます。

 

Hadoopを使用してビッグデータ分析を活用する3つの方法: リーダーへのアドバイス

  • 分散コンピューティングのフレームワークであるHadoopを使用すると、ビッグデータセットのパターンや相関を見つけ出す新たな可能性が生まれ、従来のリレーショナルデータベースを使用する場合よりも、はるかに効率的で費用効果の高いソリューションが得られます。
  • Hadoopで採用している標準的なハードウェアアーキテクチャーは、設計と実装が非常に簡単です。ただし、Hadoopのソフトウェア環境はかなり複雑になる場合があるため、その設計と実装には特別なスキルが必要です。
  • クラウドベースのHadoopインストールは広く利用可能であり、シンプルな従量制の課金設定が提供されますが、セキュリティや遅延、稼働時間の要件が厳しい組織には適さない場合があります。
  • 信頼できるパートナーによってサポートされ運用されるオンプレミスのHadoop環境では、技術的な複雑さが軽減されるだけでなく、シンプルな従量制課金モデルが提供されます。

この記事/コンテンツは、記載されている特定の著者によって書かれたものであり、必ずしもHewlett Packard Enterpriseの見解を反映しているとは限りません。

enterprise.nxt

ITプロフェッショナルの皆様へ価値あるインサイトをご提供する Enterprise.nxt へようこそ。

ハイブリッド IT、エッジコンピューティング、データセンター変革、新しいコンピューティングパラダイムに関する分析、リサーチ、実践的アドバイスを業界の第一人者からご提供します。