AIモデル
AIモデルとは
AIモデル (人工知能モデル) は、収集されたデータセットを利用して特定のパターンを検出するプログラムです。データ入力を受け取って結論を導き出したり、その結論に応じたアクションを実行したりできるシステムを示しています。トレーニングが完了すると、AIモデルを使用して将来予測を立てたり、これまで観測されていないデータに対応したりできます。AIモデルは、画像/音声認識、自然言語処理 (NLP)、異常検知、レコメンダーシステム、予測モデリング/予測、ロボットシステムや制御システムなど、さまざまな業務に活用できます。
ML/DLモデルとは
ML (機械学習) モデルとDL (ディープラーニング) モデルは、複雑なアルゴリズムと手法を利用してデータを処理、分析し、予測や意思決定をリアルタイムで生成する仕組みを示しています。
MLモデル: MLモデルは、過去のデータから結論を導き出すか予測を立てる学習アルゴリズムを使用します。これには、決定木、ランダムフォレスト、勾配ブースティング、線形回帰とロジスティック回帰などの手法が含まれます。HPEでは、MLモデルの構築と広範な利用に役立つ、さまざまな機械学習 (ML) ツールおよびテクノロジーを提供しています。
ディープラーニング (DL) モデル: 機械学習 (ML) モデルの一種であり、ディープニューラルネットワークを利用して大量のデータから学習します。DLモデルは、複雑なデータや非構造化データに対応できるため、画像/音声認識、自然言語処理、予測分析によく利用されています。TensorFlow、PyTorch、Caffeは、HPEが提供している、DLモデルの構築と利用に役立つディープラーニング (DL) ツールおよびテクノロジーのごく一部にすぎません。
MLモデルとDLモデルはいずれも、不正検知、カスタマーチャーン分析、予測メンテナンスや推奨システムなど、さまざまなビジネス課題の解決に活用されています。組織は、こうしたモデルによってデータに対する新たな視点を得ることができます。
AI、ML、DLの違い
AI (人工知能)
- AIは、人間の知能を機械で再現する幅広いツールと手法を網羅しています。
- 人工知能は、構造データ、非構造化データ、半構造化データなど、さまざまなデータタイプに適用できます。
- 多種多様な手法とアルゴリズムを利用できることから、AIシステムを理解することは簡単ではありません。
- AIシステムにはより高度なアルゴリズムと処理が含まれる場合があり、MLシステムとDLシステムに比べて速度が遅く、効果が低いことがあります。
- AIは、自然言語処理、コンピュータービジョン、ロボット、意思決定システムなど、広範なアプリケーションに利用できます。
- AIシステムには、完全自律型のものと、人間によるサポートがある程度必要になるものがあります。
- AIシステムは非常に複雑になりやすく、構築と管理のために大規模なプロフェッショナルチームが必要となります。
- 複雑なアルゴリズムと処理が含まれることが多いことを考えると、AIシステムを拡張するのは簡単ではありません。
- AIシステムでは決まった方法と処理を使用することが多く、MLシステムとDLシステムに比べて柔軟性に欠けることがあります。
- 適切なトレーニングを行うために大量のデータが必要となることは、AI、ML、DLのデメリットの1つです。
ML (機械学習)
- 機械学習はAIの一種であり、データから学習し、そのデータに基づいて予測や判断を行うよう機械をトレーニングする作業が含まれます。ML手法は、画像識別、自然言語処理、異常検知などのアプリケーションに利用できます。
- MLが学習して予測や判断を行うには、ラベル付けされたトレーニングデータが必要となります。
- MLモデルは統計モデルおよびアルゴリズムを利用しているため、比較的簡単に理解できます。
- 統計モデルおよびアルゴリズムをベースとするMLシステムは、AIシステムのスピードと有効性を上回る可能性があります。
- AIと同じアプリケーションの多くはMLに使用できますが、データ主導の学習に重点が置かれます。
- MLシステムは、人間によるわずかなサポートだけで、データから自動的に学習するよう構築されます。
- MLシステムは統計モデルおよびアルゴリズムを利用しているため、AIシステムほど複雑ではありません。
- MLシステムは、大規模データセットでのトレーニングが可能な統計モデルおよびアルゴリズムを利用しているため、AIシステムよりも拡張しやすくなります。
- MLシステムは、新しいデータから学習して予測や選択を修正できるため、AIシステムよりも柔軟性と適応性に優れている場合があります。
- データの品質がMLモデルの精度と堅牢性にも影響しますが、データの収集とラベル付けには時間もコストもかかります。
DL (ディープラーニング)
- DLはMLの特殊なタイプであり、人工ニューラルネットワークを使用して人間の脳の機能を模倣します。特にDLが解決に役立つ複雑な問題の例として、画像認識と音声認識の2つが挙げられます。
- ディープニューラルネットワークを効率的にトレーニングするために、DLには膨大なラベル付きデータが必要となります。
- DLモデルには何層ものニューロンが含まれており、読み取りや理解が難しいため、「ブラックボックス」とみなされることがあります。
- ディープニューラルネットワークは専用ハードウェアと並列コンピューティングを使用してトレーニングされるため、DLシステムは、3つの中で最もスピードと有効性のある手法となる可能性があります。
- DLは、特に、複雑なパターン認識 (画像および音声認識や自然言語処理など) を必要とするアプリケーションに最適です。
- DLシステムでは、ニューラルネットワークの設計とハイパーパラメーターの決定などの一部で人間による作業が必要となります。
- DLシステムには何層ものニューロンが含まれており、ディープニューラルネットワークのトレーニングに専用のハードウェアとソフトウェアが必要となるため、最も複雑なシステムと言えます。
- DLシステムは、専用ハードウェアと並列処理を利用してディープニューラルネットワークをトレーニングするため、最も拡張性に優れています。
- 膨大なデータから学習し、新しい状況やタスクに適応する能力を備えたDLシステムは、最も適応性に優れている可能性があります。
- DLでのディープニューラルネットワークトレーニングは、コンピューティングは複雑になり、特殊な機器とソフトウェアが必要となる場合があり、それによってコストが増大し、テクノロジーのアクセシビリティが制限されることがあります。
AIモデルの仕組み
AIモデルは、大量のデータ入力を受け取り、プログラムに提供されたデータセットに前から存在している傾向とパターンを検出するための技術的アプローチを生み出すことで動作します。大量のデータセットを必要とするプログラムに対して開発されたモデルが、アルゴリズムが既知のデータ入力に基づいた予測や戦略策定に役立つパターンと傾向の相関関係を解明できるようにサポートします。利用可能なデータのインプットを模倣する、インテリジェントで論理的な意思決定方法は、AIモデリングと呼ばれています。
簡単に説明すると、AIモデリングは、3つの基本ステップで構成される意思決定プロセスが発展したものです。
- モデリング: 第1段階では、複雑なアルゴリズムまたはアルゴリズムレイヤーを使用してデータを分析し、そのデータに基づいて判断する、人工知能モデルを開発します。優れたAIモデルは、人間の専門知識の代わりとなります。
- AIモデルのトレーニング: 第2段階では、AIモデルをトレーニングする必要があります。通常のトレーニングには、回帰テストループでAIモデルによって大量のデータを実行する作業、また結果を検査して、精度、およびそのモデルが仕様どおりに動作していることを確認する作業が含まれます。この方法を理解するには、教師あり学習と教師なし学習の違いも理解する必要があります。
1. 教師あり学習は、正しいアウトプットにラベル付けされる分類済みのデータセットを示しており、提供されたデータにはインプットデータ間に既存の関係があるということです。次にモデルがこのラベル付けデータを使用して、インプットデータと必要なアウトプットの間に関連性と傾向を見出します。
2. 教師なし学習は機械学習の一種であり、モデルはラベル付けデータへのアクセスが許可されていません。代わりに、モデルが単独でデータ内の関連性と傾向を特定する必要があります。
- 推論: 第3段階が推論です。この段階には、保有する情報から定期的に論理的推論を引き出すという、実環境での実際のユースケースへのAIモデルの展開が含まれます。
トレーニング済みのAIモデルを使用すれば、新しい未知のデータ入力に基づいて予測したり、アクションを実行したりできます。基本的にAIモデルは、インプットデータを処理することで動作し、アルゴリズムと統計手法を利用したマイニングによってパターンと関連性を特定し、次に、検出結果を利用して次のデータ入力を予想したり、対応したりします。
GPU、コンピュート、人員、データにわたってAI/MLモデルを展開する方法
GPU、コンピュート、人員、データにわたってAI/MLモデルを展開するには、テクノロジー、インフラストラクチャ、専門知識の組み合わせが必要となります。
GPUとコンピュート: ハイパフォーマンスコンピューティングソリューション (GPU高速化コンピューティングプラットフォームやクラウドベースのサービスなど) を活用してAI/MLモデルを展開できます。こうしたソリューションにより、組織はパフォーマンスを犠牲にすることなく、複雑で要求の厳しいAI/MLアルゴリズムを効率的に実行できます。
- 人員: AI/MLの展開プロセスは、人員に大きく依存します。組織が大規模なAI/MLモデルを設計、開発、実装する場合、高度なスキルを持つAI/MLのスペシャリストチームを編成する必要があります。また、AI/MLに関する組織の優先事項と目標、さらにはその実行に必要な能力とリソースを把握することが重要です。
- データ: データはこうしたモデルに不可欠なものであり、組織は、AI/MLモデルの拡張に対応できるよう適切に設計されたデータアーキテクチャーを構築する必要があります。そのためには、強固なデータ管理戦略によって、膨大なデータをリアルタイムで保存、処理、分析できるようにする必要があります。また、データの信頼性、正確性、安全性を確保することも必要です。
こうした機能を活用することで、組織はAI/MLイニシアチブの成長と成功を加速させ、デジタル時代に高い競争力を維持することができます。
AIモデルを構築してトレーニングする方法
- AIモデルの構築とトレーニングにあたっては、まず、目的を明確にして、モデルが目指すものを選択する必要があります。残りのステップは、モデルが達成すべき目的によって決まります。
- 対象分野のエキスパートと連携して、データの品質を評価します。収集されたデータを完全に把握すれば、データ入力が正確になり、エラーもなくなります。この情報をモデルのトレーニングに利用します。こうしたデータには正確性と整合性が求められ、AIが達成すべき目的に沿ったものでなければなりません。
- 最適なAIアルゴリズムまたはモデル設計 (決定木、サポートベクターマシン、その他AIモデルのトレーニングに使用されている主要な方法など) を選択します。
- クリーニング済みの準備されたデータを利用してモデルをトレーニングします。通常は、選択したアルゴリズムにインプットを入れたり、バックプロパゲーションと呼ばれる手法を利用してモデルの設定を微調整し、効率を向上させたりします。
- トレーニングされたモデルの正確性を確認して、必要な修正を加えます。たとえば、異なるデータセットでモデルをテストしたり、実際の結果を適切に予測しているか評価したりします。
- モデルの精度が適切なレベルに達したら、ファインチューニングを行って、トレーニング手順を繰り返します。たとえば、モデルのハイパーパラメーター (学習率など) を変更したり、正則化などの手法を利用して過学習を防止したりします。
- 一般的に、AIモデルの構築とトレーニングには、関連分野の専門知識、機械学習アルゴリズムおよび手法に精通していることに加えて、新しいことを試し、繰り返すことでモデルのパフォーマンスを向上させるという意志が必要となります。
AIモデルのデータバイアスとは
AIモデルのトレーニングに使用されるデータで系統誤差や不公平なバイアスが発生する可能性があることを、AIモデルのデータバイアスと呼びます。モデルのトレーニングに使用されるデータに偏りのあるインプットが含まれている場合、またはサンプルや対象顧客を代表するものではない場合、予測が不正確または不公平になる恐れがあります。それによって、モデルが特定の人物を不利に (差別的に) 扱う可能性があります。データバイアスを排除するには、AIモデルをトレーニングする際に、広範かつ代表的なデータセットを用意することが極めて重要です。また、AIモデルは異なるデータセットから学習した結果を共有することで、バイアスを減らしてモデルの精度を高めることができます。
AI/MLモデルでデータプライバシーを確保する方法
AI/MLモデルではデータプライバシーの確保が重要な問題となりますが、さまざまなテクノロジーとベストプラクティスによってそうした問題を解決できます。
データ暗号化: データの暗号化は、AI/MLモデルでデータプライバシーを確保するうえで基本となる手順です。機密データを不正アクセスから保護するには、転送中のデータだけでなく、保存データにも対応した暗号化ソリューションが必要となります。
データ匿名化: データセットから個人情報 (PII) を排除する手法は、データ匿名化と呼ばれています。企業は、顧客情報を保護しつつ、AI/MLモデルが作業に必要な情報にアクセスできるソリューションを求めています。
アクセス制御: 企業が求めているのは、機密データへのアクセスを制限し、許可された人物のみがアクセス可能となるアクセス制御ソリューションです。
コンプライアンス: AI/MLモデルでデータの機密性を保持するには、コンプライアンスについて慎重に検討する必要があります。企業は、一般データ保護規則 (GDPR) やカリフォルニア州消費者プライバシー法 (CCPA) などのデータプライバシー法を遵守するために、コンプライアンスのベストプラクティスに従う製品を求めています。
監査およびロギングソリューションにより、企業は機密データにアクセスできる人物をトラッキングし、漏洩のリスクを迅速に検出して修正できます。
組織は、データプライバシー対応のソリューションとベストプラクティスを活用することで機密データのセキュリティを確保し、顧客や関係者の信頼を維持できます。
AI/MLモデルの精度を向上させる方法
AI/MLモデルの精度向上が大きな課題となっていますが、この目標を達成するうえで役立つ戦略とベストプラクティスがあります。
データ品質: データ品質は、AI/MLモデルの精度に関して重要な要素の1つです。データ品質管理ソリューションにより、データセットの完全性、正確性、整合性を確保できます。それにより、AI/MLモデルが高品質データから学習して、より精度の高い予測を立てることが可能になります。データ品質管理には次のようなプロセスが含まれます。
- データクレンジング: データセットから不整合、重複、エラーを排除するプロセスです。
- データ標準化: データを共通のフォーマットに変換するプロセスです。
- データエンリッチメント: データセットに新たなデータを追加するプロセスです。
- データの妥当性確認: データの正確性と完全性を確認するプロセスです。
- データガバナンス: データの品質、セキュリティ、プライバシーを管理するプロセスです。
エンジニアリング機能: rawデータをAI/MLモデルで利用できる機能に変換するプロセスです。データ可視化、特徴量選択、次元削減、特徴量スケーリング、特徴量抽出は、いずれも効果的な特徴量エンジニアリング手法であり、モデル精度の飛躍的な向上につながります。
モデルの選択: 個々のタスクに最も適したAI/MLモデルを選択することが、精度の向上には不可欠です。たとえば、決定木、ロジスティック回帰、線形回帰、ディープインパクトモデルなどのモデルがあります。抱えている問題に適した、高精度のモデルを選択することが重要です。
ハイパーパラメーターチューニング: ハイパーパラメーターの設定は、AI/MLモデルのトレーニングの前に行われます。ハイパーパラメーターの選択がモデルの精度に大きな影響を及ぼすことがあります。HPEのハイパーパラメーターチューニングソリューションを使用することで、ハイパーパラメーターを自動的に調整し、モデルの精度を向上させることができます。
モデルの妥当性確認: モデルの正則化は、AI/MLモデルで過学習を軽減するプロセスです。過学習は、モデルが複雑すぎるあまり、トレーニングデータに過剰に適合することで、未知のデータに対してよい精度が出せない状態をいいます。L1、L2正則化は、過学習の軽減とモデル精度の向上に役立つ、2つのモデル正則化手法です。モデルの妥当性確認ツールとベストプラクティスを利用することで、モデルの精度を評価し、潜在的な問題を特定できます。
AIモデルを展開する方法
AIモデルを展開する方法は数多くありますが、どの方法が適しているかは、利用しているモデルのタイプと達成したい目標によって異なります。一般的なAIモデル展開戦略には、次の手法が含まれます。
- APIなどのインターフェイスからアクセスできる、専用サーバーまたはクラウドプラットフォーム上にモデルをホストする: モデルをリアルタイムの予測や推論に利用できるようにするときによく使われる手法です。
- モデルをデバイスまたはアプリケーションに直接組み込むことで、ネットワークに接続することなくローカルデータだけで予測や推論を行えるようにする: エッジデバイス、または低レイテンシが重要となるアプリケーションにモデルを展開する場合によく使われる手法です。
- モデルをコンテナ (Dockerコンテナなど) に詰め込むことで、さまざまな環境で簡単に展開、実行できるようにする: 一貫した再現可能な方法でモデルを展開する場合に役立つ手法です。
どの手法でも、モデルを展開する前に徹底的にテストおよび検証し、意図したとおりにモデルが動作することを確認することが重要です。
HPEとAIモデル
HPEは人工知能 (AI) テクノロジーに精通しています。実績のある実用的な戦略、検証済みのソリューションとパートナー、AIに最適化されたインフラストラクチャ、そしてML Opsソリューションを利用することで、組織は複雑さを軽減してデータの価値を迅速に引き出し、競争力を強化することができます。
- HPE Machine Learning Development Systemは、最適化されたAIインフラストラクチャに高性能コンピューター、アクセラレータ、モデルトレーニングおよび開発ソフトウェアを組み合わせたターンキーシステムです。エキスパートによるインストールサービスとサポートサービスの対象となります。モデル開発のためのスケールアップ型AIターンキーソリューションです。
- HPEスウォームラーニングは、データソースで機械学習モデルのトレーニングを行うためのプライバシーを確保する分散型フレームワークです。HPE Swarm Learningは、データをローカルで保持し、学習結果だけを共有することで、データプライバシー、データ所有権、効率に関する問題を解決し、偏りの少ない高精度モデルを実現します。適用済みのブロックチェーンはHPE Swarm Learningでも使用されており、メンバーを安全に登録し、分散的な方法でリーダーを選ぶことで、スウォームネットワークの耐障害性とセキュリティが確保されます。
- Determined AI (2021年6月にHPEが買収したオープンソースの機械学習トレーニングプラットフォーム) は、HPE Machine Learning Development Environmentの基盤となっています。実験を実行、拡張、共有する際に、モデルの作成者は、オープンソース版のDetermined AI上でモデルのトレーニングを開始できます。
- HPE GreenLakeプラットフォームは、エンタープライズグレードのMLクラウドサービスを提供し、開発者とデータサイエンティストが (パイロットから本稼働まで、あらゆる規模の) MLモデルを迅速に設計、トレーニング、展開できるようにすることで、MLとデータサイエンスのメリットを組織にもたらします。
- HPE Ezmeral ML Opsは、プロセスを標準化するとともに、機械学習ワークフローを設計、トレーニング、展開、監視するパッケージ化ツールを提供することで、MLライフサイクルのすべての段階でDevOpsのようなスピードとアジリティを企業にもたらします。
- HPE SmartSIMは、文書内の盗用検出に役立ちます。ソフトウェアアプリケーションのSmartSimでは機械学習と自然言語処理を利用しています。テキストを評価し、オンラインまたはブラウザーデータベースですでに公開されている他の情報との類似点を確認します。このプログラムを使用して、学術論文、研究論文などの文書の真正性を確認できます。盗用を防止し、新規の論文を作成するためのツールとして使用できます。
こうした機能は、次のパラメーターで役立ちます。
- 事前構成済みで完全インストール型の短時間で使用できるパフォーマンスの高いソリューション
- シームレスな拡張 - 分散トレーニング、ハイパーパラメーター最適化
- マネージャビリティとオブザーバビリティ
- 信頼できるベンダー、およびエンタープライズレベルのサポートとサービス
- 柔軟な異機種対応アーキテクチャー
- コンポーネントアーキテクチャー
- ソフトウェアとハードウェアのサポート
- サービスおよびサポート