Hadoop
Apache Hadoopとは
Apache Hadoopは、大規模データセットを演算リソースのクラスター間で分散処理できるようにする、オープンソースのフレームワークです。単一サーバーから数千台のサーバーまで拡張でき、それぞれのサーバーにローカルなコンピューティング機能とストレージ機能を持たせることができる設計になっています。
Hadoopが役立つ理由
ビッグデータやデータ収集デバイスがビジネスオペレーション全体で爆発的に増えていることは、企業にイノベーションと成功の大きなチャンスをもたらしています。Hadoopは、ハードウェアレイヤーではなくアプリケーションレイヤーで障害を検知して対処するため、個々のサーバーで障害が発生しやすくても、コンピューターのクラスター上で高可用性を実現することができます。
Hadoopの開発経緯
Hadoopは、ボリュームを増すビッグデータを処理する必要性から誕生しており、GoogleのMapReduce (アプリケーションを小さなコンポーネントに分割し、異なるサーバーノードで実行するプログラミングモデル) にヒントを得ています。Hadoopは、当時主流であった独自仕様のデータウェアハウスソリューションとは異なり、企業が無料のオープンソースソフトウェアと市販のハードウェアを使用して、大規模なデータセットの分析と照会をスケーラブルに行うことを可能にします。これにより、企業は、低コスト、高いスケーラビリティに加え、コンピューティング性能、フォールトトレランス、柔軟性を向上させながら、ビッグデータの保存と処理を行うことができます。また、Hadoopは、Apache Sparkなどのビッグデータ分析が発展する基盤になりました。
Hadoopのメリット
Hadoopには、ビッグデータプロジェクトで特に有用な5つの大きな利点があります。Hadoopの特徴:
1. スケーラブル
Hadoopは、並列動作する数百台の安価なサーバーに、大規模データセットを保存および分散できるため、高いスケーラビリティを備えています。従来のリレーショナルデータベースシステム (RDBMS) とは異なり、Hadoopは、数千テラバイトのデータを扱う数千のノード上でアプリケーションを実行するようにスケールアップできます。
2. フレキシブル
Hadoopでは、構造化データと構造化されていないデータの両方を利用して価値を生み出すことができます。これにより、企業は、ソーシャルメディアチャネル、Webサイトのデータ、メールのやり取りなど、さまざまなデータソースからビジネスインサイトを導き出すことができます。また、Hadoopは、リコメンデーションエンジン、ログ処理、データウェアハウスから、マーケティングキャンペーンの分析や不正の検知まで、様々な目的に利用することができます。
3. 高コスト効率
従来のRBDMSでは、ビッグデータのボリュームを処理するための十分な拡張性を確保するのに非常にコストがかかります。このようなシステムを利用している企業は、従来、大量のrawデータを削除しなければなりませんでした。すべてを残しておくにはコストがかかりすぎたためです。一方、Hadoopのスケールアウトアーキテクチャーは、企業がすべてのデータを保存して後で使用するために、はるかに手頃な価格で利用できます。
4. 高速
Hadoopでは、分散ファイルシステムをベースとした独自のストレージ方式を採用して、クラスター上のどこにあるデータでもマッピングします。さらに、データ処理のためのツールは、データがあるサーバーと同じ場所にあることが多く、データ処理をより高速に行うことができます。これらの機能により、Hadoopはテラバイト規模の構造化されていないデータを数分で、ペタバイト規模のデータを数時間で効率的に処理できます。
5. フォールトトレラント
Hadoopクラスターの任意のノードに保存されたデータは、ハードウェアまたはソフトウェアの障害に備えて、クラスターの他のノードにレプリケートされます。この意図的な冗長設計により、フォールトトレランスが確保されます。1つのノードがダウンしても、クラスター内には常にデータのバックアップが用意されています。
Hadoopでは、リレーショナルデータベース管理システムと比較して、大規模データセットを安全かつ高コスト効率な方法で簡単に扱うことができます。また、企業が保有する構造化されていないデータの量が増えれば増えるほど、ビジネスにおけるその価値は高まります。Hadoopは、検索機能、ログ処理データウェアハウス、動画や画像の解析などに適しています。
Hadoopの仕組み
HDFS
Hadoop Distributed File System (HDFS)は、膨大な量のデータをさまざまな形式で保存し、Hadoopクラスターに分散させることができます。アプリケーションデータへの高スループットアクセスを実現し、大規模データセットを持つアプリケーションに適しています。一部の分散型システムとは異なり、HDFSは高フォールトトレラントであり、低コストのハードウェアを使用して設計され、コモディティハードウェア上で稼働します。
MapReduce
MapReduceモジュールは、プログラミングモデルであると同時に、大規模なデータセットを並列処理するためのビッグデータ処理エンジンでもあります。MapReduceでは、処理ロジックが様々なスレーブノードに送られ、さまざまなノード間でデータが並列処理されます。処理された結果はマスターノードに送られ、そこでマージされ、この応答がクライアントに送り返されます。もともとHadoopで利用できる実行エンジンはMapReduceだけでしたが、その後、HadoopはApache TezやApache Sparkなどの他の実行エンジンもサポートするようになりました。
YARN
HadoopのYet Another Resource Negotiator (YARN)は、Hadoopフレームワークのもう1つのコアコンポーネントです。クラスターのリソース管理、タスクの計画、Hadoop上で実行されるジョブのスケジュール設定に使用されます。これにより、HDFS全体に保存されたデータの並列処理が可能になります。YARNにより、Hadoopシステムでは利用可能なリソースを効率的に利用できます。このことは、大量のデータを処理する上で非常に重要です。
Hadoopの使用方法
さまざまな業種の企業が、ビッグデータ分析のためにHadoopを利用し、組織に多くの利益をもたらしています。
ファイナンシャルサービス企業
金融機関はHadoopを活用して、重要な投資判断やリスクの低減を行っています。銀行などの金融機関では、ローンやクレジットカードの申請者をより正確に承認/却下するために、ビッグデータ分析を活用しています。この分析は、過去の購買行動に基づいて、疑わしいアカウント活動を特定するためにも使用されます。保険会社も、不正請求の検出や防止にHadoopを役立てています。医療保険会社は、ビッグデータを活用して、具体的な患者の属性に合わせた保険約款を策定することができます。また、お客様とのオンラインチャットによる会話からインサイトを得て、サービス品質を向上させたり、よりパーソナライズされた顧客体験を実現したりするためにも、Hadoopが活用されています。
通信
通信プロバイダーは、常に大量のデータを高速で生成し、何十億もの通話記録を保持しています。ビッグデータは、何百万人ものお客様の請求明細を正確に作成したり、将来の帯域幅のデマンドやお客様の通信トレンドを予測したりするために役立てられています。これらの情報は、将来のインフラストラクチャ計画や、お客様向けの新しい製品やサービスの開発に活用されます。
医療
医療業界では、患者の記録、研究や試験のデータ、電子健康機器などを通じて、膨大な量のデータを入手しています。Hadoopは、何十億件もの医療記録を扱うための、制約のない並列データ処理、フォールトトレランス、ストレージを提供します。このプラットフォームは、医療データの分析にも使用され、分析結果は、何十億人もの集団の公衆衛生の傾向を評価したり、個々の患者のニーズに合わせた治療法を作成したりするために使用できます。
小売業
今日、小売業者が生成する大量のデータは、高度な処理を必要としています。過去のトランザクションデータをHadoopクラスターにロードすることで、需要予測、在庫予測、ターゲットプロモーションの作成、コンシューマーの嗜好予測などの分析アプリケーションを構築できます。
Hadoop向けのHPEのソリューション
HPE Elastic Platform for Big Data Analytics (EPA) は、スケーラブルなマルチテナントプラットフォームのニーズに対応するモジュラーインフラストラクチャ基盤として設計されています。これは、密度とワークロードに合わせて最適化されたインフラストラクチャのビルディングブロックを通じた、コンピュートとストレージの独立したスケーリングによって実現されています。2種類の展開モデルが用意されています。
- HPE Balanced and Density Optimized (BDO) システム: コンピュートとストレージを一緒に拡張する従来のHadoop展開をサポートします。メモリ、プロセッサー、ストレージ容量をある程度柔軟に選択できます。
- HPE Workload and Density Optimized (WDO) システム: より高速なイーサーネットネットワークの性能を活用し、コンピュートとストレージを独立して拡張するビルディングブロックアプローチを実現することで、成長速度の異なるデータとワークロードを統合できます。
HPEは、Hadoopの利用を根本的に簡素化する、拡張性に優れたソリューションも提供しています。Hadoop環境の複雑さとコストの大半をこのソリューションに委ね、お客様は、Hadoopクラスターからインテリジェンスを引き出すことに注力できます。対称環境および非対称環境の両方をサポートするHPE GreenLakeは、ハードウェア、ソフトウェア、サービスを含む、ビッグデータ向けの包括的なエンドツーエンド ソリューションを提供します。HPEのエキスパートは、お客様によるクラスターのセットアップと運用、管理とメンテナンスをサポートするとともに、請求を簡素化してビジネスKPIに合致させます。HPE独自の価格設定/請求手法により、お客様はこれまでよりはるかに容易に既存のHadoopのコストを把握し、ソリューションに関連する将来のコストを的確に予測できるようになります。