読了所要時間: 8分43秒 | 公開日: 2025年10月16日
AIデータセンターネットワーキング AIデータセンターネットワーキングとは
AIデータセンターネットワーキングとは、人工知能 (AI) を可能にするデータセンターネットワーキングファブリックを指します。AIデータセンターネットワーキングは、AIトレーニングフェーズで特に要求が厳しい、AIおよび機械学習 (ML) ワークロードにおけるネットワークスケーラビリティ、パフォーマンス、低レイテンシといった厳格な要件をサポートします。
初期のハイパフォーマンスコンピューティング (HPC) およびAIトレーニングネットワークでは、当初、サーバーおよびストレージシステム間の効率的な高速通信を実現する、高速で低レイテンシな独自のネットワークテクノロジーであるInfiniBandが人気を集めていました。しかし現在は、それに代わるオープンテクノロジーであるイーサーネットがAIデータセンターネットワーキング市場で大きな支持を得ており、主力テクノロジーになると見込まれています。
イーサーネットの導入が拡大している理由はいくつかありますが、特にパフォーマンス、運用、コストが大きな要因となっています。独自のInfiniBandネットワークに比べると、イーサーネットネットワークを構築、運用できるネットワーク技術者は人材が豊富であり、イーサーネットネットワークの管理ツールも、主にNvidiaから供給されるInfiniBandテクノロジーに比べて多種多様です。
AIデータセンターネットワーキングが対応するAI主導の要件
生成AI (GenAI) が革新的なテクノロジーであることが世界中で証明されつつあります。生成AI、そして一般的な大規模ディープラーニングAIモデルが、AIデータセンターネットワーキングに新たな要件をもたらしています。AIモデルの開発には次の3つのフェーズがあります。
- フェーズ1: データの準備 - AIモデルに入力するデータセットの収集とキュレーションを行います。
- フェーズ2: AIトレーニング - 大量のデータにさらすことで、特定のタスクを実行するようにAIモデルをトレーニングします。このフェーズでは、AIモデルはトレーニングデータ内のパターンと関係性を学習し、知能を模倣する仮想シナプスを開発します。
- フェーズ3: AI推論 - 現実世界の環境で運用し、新しい未知のデータに基づいて予測や意思決定を行います。
フェーズ3は通常、既存のデータセンターとクラウドネットワークによってサポートされます。ただし、フェーズ2 (AIトレーニング) では、AIモデルが継続的に収集されるデータから学習してパラメーターを改良するという反復プロセスをサポートするために、大量のデータとコンピュートリソースが必要になります。グラフィックスプロセッシングユニット (GPU) は、AI学習および推論ワークロードに適していますが、効率的に実行するにはクラスターで動作する必要があります。クラスターをスケールアップすると、AIモデルの効率は向上しますが、コストも増加するため、クラスターの効率を損なわない、高性能で低レイテンシのAIデータセンターネットワーキングを使用することが重要です。
大規模なモデルをトレーニングするには、多数の (場合によっては数万台の) GPUサーバーを接続する必要があり、2023年にはサーバー1台あたりのコストが40万ドルを超えていました。そのため、ジョブ完了時間 (JCT) を最適化し、テールレイテンシ (異常なAIワークロードによってAIジョブ全体の完了が遅くなる状態) を最小限に抑えるか排除することが、GPUのROIを最適化するための鍵となります。このユースケースでは、AIデータセンターネットワークは100%の信頼性を備え、クラスターの効率を損なわないものでなければなりません。
AIデータセンターネットワーキングの仕組み
高価なGPUサーバーがAIデータセンター全体のコストを押し上げることが多いとはいえ、GPUの使用率を最大化するには高性能なネットワークが必要となるため、AIデータセンターネットワーキングは極めて重要です。イーサーネットは、AI向けに最適化されたデータセンターネットワークアーキテクチャー内で、こうしたソリューションを提供するのに最適な、オープンで実績のあるテクノロジーです。機能強化には、輻輳管理、負荷分散、レイテンシの最小化によるJCTの改善が含まれます。最後に、簡素化された管理と自動化により、信頼性と継続的なパフォーマンスが保証されます。
- ファブリック設計: AIデータセンターはさまざまなファブリックアーキテクチャーを導入できますが、大規模なトレーニングのパフォーマンスを最適化するには、any-to-anyのノンブロッキングクロスファブリックが推奨されます。現在、ほとんどのAIクラスターは完全なレール最適化設計を使用しており、予測可能なパフォーマンスと一貫した帯域幅を保証しています。これらのファブリックは、NICからリーフ、スパインに至るまで、400Gbps (800Gbpsおよび1.6Tbpsに移行中) の均一なネットワーク速度で構築されています。モデルのサイズとGPUクラスターの規模に応じて、2層3ステージまたは3層5ステージのノンブロッキングファブリックを展開することで、高スループットと低レイテンシを実現できます。
- フロー制御と輻輳回避: ファブリックの容量に加えて、いくつかの要素を設計時に追加で検討することで、ファブリック全体の信頼性と効率が向上します。たとえば、最適なリンク数を持つ適切なサイズのファブリックインターコネクトや、輻輳やパケット損失を回避するためにフローの不均衡を検出して修正する機能について検討します。明示的輻輳通知 (ECN) とデータセンター量子化輻輳通知 (DCQCN)、および優先度ベースのフロー制御を組み合わせることで、フローの不均衡を解決し、ロスレス伝送を保証します。
輻輳を軽減するために、スイッチには動的かつ適応型の負荷分散が導入されています。動的負荷分散 (DLB) は、スイッチでフローをローカルに再配分し、均等に分散させます。適応型負荷分散は、フロー転送とネクストホップテーブルを監視して不均衡を識別し、混雑したパスからトラフィックを迂回させます。
輻輳が回避されない場合、ECNはアプリケーションに早期通知を行います。この間に、リーフとスパインはECN対応パケットを更新して送信側に輻輳を通知します。これにより、送信側は転送中のパケットのドロップを回避するために送信速度を低下させます。エンドポイントが時間内に反応しない場合、優先度ベースのフロー制御 (PFC) により、イーサーネットの受信側はバッファーの使用可否に関するフィードバックを送信側と共有できます。最後に、輻輳時には、リーフとスパインが特定のリンク上のトラフィックを一時停止または調整して輻輳を軽減してパケットのドロップを回避できます。これにより、特定のトラフィッククラスでロスレス伝送が可能になります。
- スケールとパフォーマンス: イーサーネットは、ハイパフォーマンスコンピューティングおよびAIアプリケーションの厳格さに対応するのに最適なオープン標準ソリューションとして登場しました。時間の経過とともに、より高速で信頼性が高く、スケーラブルなものへと進化し (現在の800GbEおよび1.6TEへの進化を含む)、ミッションクリティカルなAIアプリケーションに必要な高データスループットと低レイテンシの要件に対応するのに最適な選択肢となっています。
- 自動化: 自動化は効果的なAIデータセンターネットワーキングソリューションを完成させる最後の要素ですが、自動化ならどんなものでもよいわけではありません。自動化ソフトウェアが最大限の価値を発揮するには、エクスペリエンスファーストの運用を実現する必要があります。自動化ソフトウェアは、AIデータセンターの設計、展開、管理に継続的に使用され、Day 0から Day 2以降までのAIデータセンターネットワークライフサイクルを自動化および検証します。それにより、繰り返し可能で継続的に検証されたAIデータセンターの設計と展開が可能になり、ヒューマンエラーが排除されるだけでなく、テレメトリとフローデータを活用してパフォーマンスを最適化し、プロアクティブなトラブルシューティングを実現し、障害を回避することができます。
数十年にわたるネットワーキングの経験とAIOpsのイノベーションに基づいて構築された、HPE Juniper Networking AIデータセンターネットワーキングソリューション
JuniperのAIデータセンターネットワーキングソリューションは、数十年にわたるネットワーキングの経験とAIOpsのイノベーションを基盤に構築され、オープンで高速、かつ管理が容易なイーサーネットベースのAIネットワーキングソリューションを実現します。これらの大容量でスケーラブルなノンブロッキングファブリックは、最高のAIパフォーマンス、最速のジョブ完了時間、最も効率的なGPU使用率を実現します。JuniperのAIデータセンターネットワーキングソリューションは、次の3つの基本的な設計指針に基づいています。
- 極めてスケーラブルなパフォーマンス - ジョブの完了時間を最適化し、それによってGPU効率を最大限に向上させます。
- 業界標準のオープン性 - 長期的にイノベーションを促進してコストを削減する、業界主導のエコシステムを活用して既存のデータセンターテクノロジーを拡張します。
- エクスペリエンスファーストの運用 - バックエンド、フロントエンド、ストレージのファブリックにおけるAIデータセンターの設計、展開、運用を自動化および簡素化します。
これらの指針を支える要素は次のとおりです。
- AIトレーニングフレームワークを最適化するための最も汎用性の高いトポロジである、Any-to-Anyのノンブロッキングクロスファブリックを活用した、大容量かつロスレスなAIデータセンターネットワーク設計。
- 高性能スイッチおよびルーター (スパイン/スーパースパイン向けのJuniper Express SiliconベースのHPE Juniper PTX Series Routersや、AIサーバー接続を提供するリーフスイッチとしてのBroadcomの Tomahawk ASICベースのQFXシリーズスイッチなど)。
- フロー制御と衝突回避によるファブリックの効率化。
- 800GbEによるオープンで標準ベースのイーサーネットのスケールとパフォーマンス。
- Apstra® Data Center Directorのインテントベースネットワーキングソフトウェアを使用した広範な自動化により、Day 0からDay 2以降までのAIデータセンターネットワークライフサイクルを自動化および検証。
AIデータセンターネットワーキングについてよくあるご質問
AIデータセンターネットワーキングはどのような問題を解決しますか。
AIデータセンターネットワーキングは、生成AIや一般的な大規模ディープラーニングAIモデルのパフォーマンス要件に対応します。AIトレーニングでは、AIモデルが継続的に収集されるデータから学習してパラメーターを改良するという反復プロセスをサポートするために、大量のデータとコンピュートリソースが必要になります。グラフィックスプロセッシングユニット (GPU) は、AI学習および推論ワークロードに適していますが、効率的に実行するにはクラスターで動作する必要があります。クラスターをスケールアップすると、AIモデルの効率は向上しますが、コストも増加するため、クラスターの効率を損なわないAIデータセンターネットワーキングを使用することが重要です。
大規模なモデルをトレーニングするには、多数の (場合によっては数万台の) GPUサーバーを接続する必要があり、2023年にはサーバー1台あたりのコストが40万ドルを超えていました。そのため、ジョブ完了時間 (JCT) を最小化し、テールレイテンシ (異常なAIワークロードによってAIジョブ全体の完了が遅くなる状態) を最小限に抑えるか排除することが、GPUのROIを最適化するための鍵となります。このユースケースでは、AIデータセンターネットワークは100%の信頼性を備え、クラスターの効率を損なわないものでなければなりません。
データセンターネットワーキングにAIを導入するメリットは何ですか。
データセンターネットワーキングにAIを導入することで、次のような多くのメリットが得られます。
- 効率性の向上: AIアルゴリズムはネットワーク設定を動的に変更してトラフィックを最適化し、レイテンシを最小限に抑え、効率を高めます。
- スケーラビリティ: AI主導の自動化により、需要とワークロードに応じてリソースを管理することで、データセンターのスケーラビリティが向上します。
- コスト節減: AIは、定期的なジョブを自動化し、リソースの使用を最適化することで、ネットワークメンテナンスを減らし、管理費用を削減できます。
- 強化されたセキュリティ: AIは脅威をリアルタイムで検出して対応できるため、ネットワーク侵害や攻撃のリスクを軽減できます。
- 予測機能: AIの予測分析により、データセンターは予測される需要と懸念に基づいてネットワークを構築および維持できます。
AIデータセンターネットワーキングは、機械学習とAIを活用してネットワークインフラストラクチャの管理と最適化に変革をもたらし、効率、スケーラビリティ、セキュリティを向上させてコストを削減します。
AIデータセンターネットワーキングにおいて、イーサーネットがInfiniBandよりも優れている点は何ですか。
初期のハイパフォーマンスコンピューティング (HPC) およびAIトレーニングネットワークでは、当初、サーバーおよびストレージシステム間の効率的な高速通信を実現する、高速で低レイテンシな独自のネットワークテクノロジーであるInfiniBandが人気を集めていました。しかし現在は、それに代わるオープンテクノロジーであるイーサーネットが、最新のAIデータセンターネットワーキング市場で大きな支持を得ており、主力テクノロジーになると見込まれています。
InfiniBandのような独自のテクノロジーは進歩やイノベーションをもたらす可能性がありますが、高価であり、市場競争原理が働かず価格が高止まりして、プレミアム料金が発生しています。また、独自のInfiniBandネットワークに比べると、イーサーネットネットワークを構築、運用できるネットワーク技術者は人材が豊富であり、イーサーネットネットワークの管理ツールも、主にNvidiaから供給されるInfiniBandテクノロジーに比べて多種多様です。
イーサーネットは、IPに次いで、世界で最も広く導入されているネットワークテクノロジーです。イーサーネットは、より高速で信頼性が高く、スケーラブルなものへと進化しており、AIアプリケーションの高データスループットと低レイテンシの要件に対応するのに適しています。800GbEおよび1.6Tイーサーネットへの機能強化により、大容量、低レイテンシ、ロスレスのデータ伝送が可能になったことで、イーサーネットファブリックは優先度が高くミッションクリティカルなAIトラフィックに最適なものになっています。
AIデータセンターネットワーキングは今後、どのようになりますか。
- AI主導のネットワーク自動化: AIはネットワークの自動化を改善し、手作業による介入を排除して運用効率を向上させます。
- エッジAI: エッジコンピューティングが拡大するにつれて、AIはネットワークエッジでローカルにデータを分析し、レイテンシを短縮してリアルタイムの意思決定を促進します。
- サイバーセキュリティのためのAI: 高度な脅威検出、リアルタイムの異常識別、自動化されたインシデント対応により、ネットワークセキュリティが向上します。
- 5G以降: AI主導のネットワーク管理は、5Gネットワークや将来のネットワークが複雑さとデータ量を処理するのに役立ちます。
- 自己最適化ネットワーク: AIにより、ネットワークは人間の介入なしに設定を変更し、障害を予測し、パフォーマンスを最適化できるようになります。
- サステナビリティ: AIはデータセンターのエネルギーシステムと冷却システムを最適化し、環境への影響を低減します。
- AIによるネットワークアナリティクスの強化: 高度なAI分析により、ネットワークのパフォーマンス、ユーザーの行動、今後のパターンが明らかになり、意思決定が改善されます。
データセンターネットワーキングへのAIの実装は複雑ですが、戦略的なアプローチとベストプラクティスが役立つ場合があります。AIデータセンターネットワーキングは、自動化、セキュリティ、効率性の向上を実現します。
HPE Juniper Networkingは、AIデータセンターネットワーキング向けにどのような製品・ソリューションを提供していますか。
HPE Juniper NetworkingのAIデータセンターネットワーキングソリューションは、AIトレーニングフレームワークを最適化するための最も汎用性の高いトポロジである、Any-to-Anyのノンブロッキングクロスファブリックを活用した、大容量かつロスレスなAIデータセンターネットワーク設計を提供します。このソリューションは、最大800GbEのインターフェイスを備えた高性能でオープン標準ベースのイーサーネットスイッチおよびルーターを活用します。また、Apstra® Data Center Directorのインテントベースネットワーキングソフトウェアを使用して、Day 0からDay 2以降までのAIデータセンターネットワークライフサイクルを自動化および検証します。
AIデータセンターネットワーキングに関する重要な留意事項は何ですか。
データセンターネットワーキングへのAI導入を計画している組織にとって重要な留意事項は次のとおりです。
- ビジネスニーズと目標を評価する: データセンターネットワーキングにAIを導入するための具体的な目標と目的を理解します。効率性、セキュリティ、コスト節減、またはスケーラビリティの向上として成功を定義します。
- 現在のインフラストラクチャと準備状況を評価する: AI統合の準備状況に合わせて、ハードウェア、ソフトウェア、データアーキテクチャーを評価します。改善や修正が必要なギャップや領域を特定します。
- データの品質と可用性: AIモデルのトレーニングと意思決定に高品質なデータを提供します。データガバナンスポリシーは、データの完全性、セキュリティ、コンプライアンスを実現します。
- セキュリティとプライバシーに関する留意事項: AIソリューションを導入する際は、サイバーセキュリティとデータプライバシーを優先してください。規範と要件を満たす安全なAIシステムを開発します。
- AIの統合と互換性: AIをネットワークシステムにスムーズに統合するための徹底した統合計画を作成します。レガシーインフラストラクチャの互換性と将来のテクノロジーの相互運用性について検討します。
- スキルとトレーニング: 企業のAIスキルを評価し、ギャップを特定します。ITプロフェッショナルがAI主導のテクノロジーを管理および使用する方法を学習できるように支援します。
- パイロットプロジェクトから開始する: 実際の状況で小規模なパイロットプロジェクトを使用して、AIアプリケーションをテストします。パイロットプログラムでは、AIシステムをテストし、問題を明らかにし、展開前に実装策を改善します。
- ROIと費用: AI展開のROIとTCOを評価します。インフラストラクチャ、ソフトウェアライセンス、メンテナンス、トレーニングの費用を検討します。
- ベンダーの選択とパートナーシップ: 実証済みのAIとデータセンターネットワーキングの能力を持つ、評判の高いサプライヤーとテクノロジーパートナーを選択します。緊密に連携して会社の目標と一致させ、ベンダーのサポートを活用して効果的な実装を実現します。
- 監視と継続的改善: 評価基準とKPIを使用してAIソリューションの商業的成果を追跡します。データ主導の評価、更新、最適化を通じて継続的に改善します。
これらの特性に対処することで、企業はAIの計画を立ててデータセンターネットワークに実装し、リスクを最小限に抑えながらパフォーマンス、効率、セキュリティを最大化できます。