Lesezeit: 8 Minuten 43 Sekunden | Veröffentlicht: 16. Oktober 2025

KI Data Center Networking
Was ist KI Data Center Networking?

KI Data Center Networking bezieht sich auf die Netzwerk-Fabric von Rechenzentren, die künstliche Intelligenz (KI) ermöglicht. Sie unterstützt die strengen Anforderungen von KI- und Machine-Learning-Workloads (ML) an Netzwerkskalierbarkeit, Leistung und geringe Latenz, die insbesondere in der KI-Trainingsphase hoch sind.

Bei den ersten HPC- (High Performance Computing) und KI-Trainingsnetzwerken, InfiniBand, gewannen proprietäre InfiniBand-Hochgeschwindigkeitsnetzwerke mit geringer Latenzzeit aufgrund ihrer schnellen und effizienten Kommunikation zwischen Servern und Speichersystemen zunächst an Beliebtheit. Heute ist die offene Alternative das Ethernet, das am Markt für KI-Netzwerke in Rechenzentren zunehmend an Bedeutung gewinnt und sich voraussichtlich zur dominierenden Technologie entwickeln wird.

Es gibt mehrere Gründe für die zunehmende Verbreitung von Ethernet, aber Leistung, Betrieb und Kosten sind besonders hervorzuheben. Der Pool an Netzwerkexperten, die ein Ethernet-Netzwerk aufbauen und betreiben können, ist im Vergleich zu einem proprietären InfiniBand-Netzwerk riesig, und es steht eine breite Palette an Tools zur Verwaltung solcher Netzwerke zur Verfügung, im Gegensatz zur InfiniBand-Technologie, die hauptsächlich von NVIDIA bezogen wird.

HPE Synergy Server.

Wechseln zu

Welche KI-gestützten Anforderungen werden durch KI Data Center Networking erfüllt?

Generative KI (GenAI) erweist sich weltweit als transformative Technologie. Generative KI und generell große Deep Learning KI-Modelle bringen neue Anforderungen an die Netzwerktechnik von KI-Datencentern mit sich. Die Entwicklung eines KI-Modells umfasst drei Phasen:

  • Phase 1: Datenaufbereitung – Sammeln und Kuratieren von Datensätzen, die in das KI-Modell eingespeist werden sollen.
  • Phase 2: KI-Training – Ein KI-Modell wird durch die Verarbeitung großer Datenmengen darauf trainiert, eine bestimmte Aufgabe auszuführen. In dieser Phase lernt das KI-Modell Muster und Zusammenhänge in den Trainingsdaten, um virtuelle Synapsen zu entwickeln, die Intelligenz nachahmen.
  • Phase 3: KI-Inferenz – Betrieb in einer realen Umgebung, um auf der Grundlage neuer, unbekannter Daten Vorhersagen oder Entscheidungen zu treffen.

Phase 3 wird im Allgemeinen durch bestehende Rechenzentrums- und Cloud-Netzwerke unterstützt. Allerdings benötigt Phase 2 (KI-Training) umfangreiche Daten- und Computing-Ressourcen, um den iterativen Prozess zu unterstützen, bei dem das KI-Modell aus kontinuierlich gesammelten Daten lernt, um seine Parameter zu verfeinern. Grafikprozessoren (GPUs) eignen sich gut für KI-Lern- und Inferenz-Workloads, müssen aber in Clustern arbeiten, um effizient zu sein. Die Erweiterung von Clustern verbessert zwar die Effizienz des KI-Modells, erhöht aber auch die Kosten. Daher ist es entscheidend, ein leistungsstarkes KI-Rechenzentrums-Netzwerk mit geringer Latenz zu verwenden, das die Effizienz des Clusters nicht beeinträchtigt.

Um große Modelle zu trainieren, müssen viele, ja sogar zehntausende GPU-Server angeschlossen werden (deren Kosten im Jahr 2023 bei mehr als 400.000 US-Dollar pro Server lagen). Daher sind die Optimierung der Job–Abschlusszeit (Job Completion Time, JCT) und die Minimierung oder Beseitigung der Tail-Latenz (ein Zustand, in dem Ausreißer-KI-Workloads die Fertigstellung des gesamten KI-Jobs verlangsamen) der Schlüssel zur Optimierung der Rendite der GPU-Investition. In diesem Anwendungsfall muss das KI-Rechenzentrums-Netzwerk zu 100 % zuverlässig sein und darf keine Beeinträchtigung der Cluster-Effizienz verursachen.

 

Wie funktioniert KI Data Center Networking?

Obwohl teure GPU-Server typischerweise den größten Anteil der Gesamtkosten von KI-Datencentern ausmachen, ist die Vernetzung von KI-Datencentern von entscheidender Bedeutung, da ein leistungsstarkes Netzwerk erforderlich ist, um die GPU-Auslastung zu maximieren. Ethernet ist eine offene, bewährte Technologie, die sich am besten eignet, um diese Lösung innerhalb einer für KI optimierten Rechenzentrums-Netzwerkarchitektur bereitzustellen. Zu den Verbesserungen gehören Überlastungsmanagement, Lastverteilung und minimierte Latenzzeiten zur Optimierung von JCT. Schließlich gewährleisten vereinfachtes Management und Automatisierung Zuverlässigkeit und kontinuierliche Leistung.

  • Fabric-Design: KI-Datencenter können verschiedene Fabric-Architekturen verwenden, aber eine Any-to-Any Non-Blocking Clos-Fabric wird empfohlen, um die Leistung bei groß angelegten Trainings zu optimieren. Die meisten KI-Cluster verwenden heute ein vollständig schienenoptimiertes Design, das vorhersehbare Leistung und gleichbleibende Bandbreite gewährleistet. Diese Strukturen sind mit einheitlichen Netzwerkgeschwindigkeiten von 400 Gbit/s (später 800 Gbit/s und 1,6 Tbit/s) von der NIC zum Leaf und durch das Spine aufgebaut. Je nach Modellgröße und GPU-Clustergröße kann eine zweischichtige, dreistufige nicht-blockierende Fabric oder eine dreischichtige, fünfstufige nicht-blockierende Fabric eingesetzt werden, um einen hohen Durchsatz und eine geringe Latenz zu erzielen.
  • Verkehrsflusssteuerung und Überlastungsvermeidung: Neben der Kapazität der Fabric erhöhen weitere gestalterische Überlegungen die Zuverlässigkeit und Effizienz der gesamten Fabric. Zu diesen Überlegungen gehören die richtige Dimensionierung der Fabric-Verbindungen mit der optimalen Anzahl an Verbindungen sowie die Fähigkeit, Flussungleichgewichte zu erkennen und zu korrigieren, um Überlastung und Paketverlust zu vermeiden. Explizite Überlastungsbenachrichtigung (Explicit Congestion Notification, ECN) mit quantisierter Überlastungsbenachrichtigung im Rechenzentrum (Data Center Quantized Congestion Notification, DCQCN) plus prioritätsbasierter Flusssteuerung beheben Flussungleichgewichte, um eine verlustfreie Übertragung zu gewährleisten.

Um Überlastungen zu reduzieren, wird am Switch ein dynamischer und adaptiver Lastausgleich eingesetzt. Dynamischer Lastausgleich (Dynamic Load Balancing, DLB) verteilt die Datenströme lokal am Switch neu, um sie gleichmäßig zu verteilen. Adaptives Load Balancing überwacht Flow Forwarding und Next-Hop-Tabellen, um Ungleichgewichte zu erkennen und den Datenverkehr von überlasteten Pfaden wegzuleiten.

Kann eine Überlastung nicht vermieden werden, benachrichtigt ECN die Anwendungen frühzeitig. Während dieser Zeiträume aktualisieren die Leaf-and-Spine-Knoten ECN-fähige Pakete, um die Absender über die Überlastung zu informieren, was die Absender dazu veranlasst, die Übertragung zu verlangsamen, um Paketverluste während der Übertragung zu vermeiden. Wenn die Endpunkte nicht rechtzeitig reagieren, ermöglicht die prioritätsbasierte Flusssteuerung (Priority-based Flow Control, PFC) den Ethernet-Empfängern, den Sendern Rückmeldungen zur Pufferverfügbarkeit zu geben. Schließlich können die Leaf-and-Spine-Knoten bei Überlastung den Datenverkehr auf bestimmten Verbindungen pausieren oder drosseln, um die Überlastung zu verringern und Paketverluste zu vermeiden, wodurch verlustfreie Übertragungen für bestimmte Verkehrsklassen ermöglicht werden.

  • Umfang und Leistung: Ethernet hat sich als die bevorzugte offene Standardlösung für die anspruchsvollen Anforderungen von High Performance Computing und KI-Anwendungen etabliert. Im Laufe der Zeit wurde es weiterentwickelt (einschließlich der aktuellen Fortschritte zu 800 GbE und 1,6 TE), um schneller, zuverlässiger und skalierbarer zu werden, was es zur bevorzugten Wahl für die Bewältigung hoher Datendurchsatz- und niedriger Latenzanforderungen macht, die für unternehmenskritische KI-Anwendungen notwendig sind.
  • Automatisierung: Die Automatisierung ist das letzte Puzzleteil für eine effektive KI-basierte Netzwerklösung für Rechenzentren, wobei Automatisierung nicht gleich Automatisierung ist. Um den vollen Nutzen zu erzielen, muss die Automatisierungssoftware einen benutzerzentrierten Betrieb ermöglichen. Sie wird fortlaufend bei der Konzeption, dem Einsatz und der Verwaltung des KI-Rechenzentrums verwendet. Sie automatisiert und validiert den Lebenszyklus des KI-Rechenzentrumsnetzwerks vom Tag 0 bis zum fortlaufenden Betrieb. Das führt zu wiederholbaren und kontinuierlich validierten KI-Rechenzentrumsdesigns und -implementierungen, die nicht nur menschliche Fehler ausschließen, sondern auch Telemetrie- und Flussdaten nutzen, um die Leistung zu optimieren, eine proaktive Fehlerbehebung zu ermöglichen und Ausfälle zu vermeiden.

Die KI-basierte Netzwerklösung für Rechenzentren von HPE Juniper Networking baut auf jahrzehntelanger Netzwerkerfahrung und AIOps-Innovationen auf

Die KI-basierte Netzwerklösung für Rechenzentren von Juniper baut auf unserer jahrzehntelangen Netzwerkerfahrung und AIOps-Innovationen auf und bietet so offene, schnelle und einfach zu verwaltende Ethernet-basierte KI-Netzwerklösungen. Diese skalierbaren und nicht-blockierenden Fabrics mit hoher Kapazität bieten höchste KI-Leistung, schnellste Auftragsabwicklung und effizienteste GPU-Auslastung. Die KI-basierte Netzwerklösung für Rechenzentren von Juniper basiert auf drei grundlegenden Architektursäulen:

  • Hochgradig skalierbare Leistung – zur Optimierung der Jobabschlusszeit und damit der GPU-Effizienz.
  • Offenheit nach Industriestandard – Um bestehende Rechenzentrumstechnologien durch branchenorientierte Ökosysteme zu erweitern, die Innovationen fördern und langfristig die Kosten senken.
  • Erlebnisorientierter Betrieb – Automatisierung und Vereinfachung von Design, Bereitstellung und Betrieb von KI-Rechenzentren für Backend-, Frontend- und Speicherinfrastrukturen.

Diese Säulen werden gestützt durch:

  • Ein KI-Rechenzentrums-Netzwerkdesign mit hoher Kapazität und verlustfreier Übertragung, das die Vorteile einer Any-to-Any Non-Blocking Clos-Fabric nutzt – die vielseitigste Topologie zur Optimierung von KI-Trainingsframeworks.
  • Hochleistungsfähige Switches und Router, darunter HPE Juniper PTX Series Router, basierend auf Juniper Express Silicon für den Spine/Super Spine, und QFX Series Switches, basierend auf Broadcoms Tomahawk ASICs als Leaf-Switches zur Bereitstellung von KI-Serverkonnektivität.
  • Fabric-Effizienz durch Flusssteuerung und Kollisionsvermeidung.
  • Offene, standardbasierte Ethernet-Skalierbarkeit und -Leistung mit 800 GbE.
  • Umfangreiche Automatisierung mithilfe der Intent-basierten Netzwerksoftware Apstra® Data Center Director zur Automatisierung und Validierung des Lebenszyklus des KI-Rechenzentrums-Netzwerks vom Tag 0 bis zum laufenden Betrieb.

KI Data Center Networking FAQ

Welches Problem löst AI Data Center Networking?

Die Vernetzung von KI-Rechenzentren erfüllt die Leistungsanforderungen von generativer KI und großen Deep Learning KI-Modellen im Allgemeinen. KI-Training erfordert umfangreiche Daten- und Computing-Ressourcen, um den iterativen Prozess zu unterstützen, bei dem das KI-Modell aus kontinuierlich gesammelten Daten lernt, um seine Parameter zu verfeinern. Grafikprozessoren (GPUs) eignen sich gut für KI-Lern- und Inferenz-Workloads, müssen aber in Clustern arbeiten, um effizient zu sein. Die Erweiterung von Clustern verbessert zwar die Effizienz des KI-Modells, erhöht aber auch die Kosten. Daher ist es entscheidend, ein KI-Rechenzentrums-Netzwerk zu verwenden, das die Effizienz des Clusters nicht beeinträchtigt.

Um große Modelle zu trainieren, müssen viele, ja sogar zehntausende GPU-Server angeschlossen werden (deren Kosten im Jahr 2023 bei mehr als 400.000 US-Dollar pro Server lagen). Daher sind die Maximierung der Job-Abschlusszeit und die Minimierung oder Beseitigung der Tail-Latenz (ein Zustand, in dem Ausreißer-KI-Workloads die Fertigstellung des gesamten KI-Jobs verlangsamen) der Schlüssel zur Optimierung der Rendite der GPU-Investition. In diesem Anwendungsfall muss das KI-Rechenzentrums-Netzwerk zu 100 % zuverlässig sein und darf keine Beeinträchtigung der Effizienz im Cluster verursachen.

Was sind die Vorteile von KI im Data Center Networking?

KI im Data Center Networking bietet viele Vorteile. Dazu gehören:

  • Verbesserte Effizienz: KI-Algorithmen ändern die Netzwerkeinstellungen dynamisch, um den Datenverkehr zu optimieren, die Latenz zu verringern und die Effizienz zu steigern.
  • Skalierbarkeit: Durch die Verwaltung-on-Demand von Ressourcen und Workloads verbessert die KI-gestützte Automatisierung die Skalierbarkeit von Rechenzentren.
  • Kosteneinsparungen: KI kann die Kosten für die Wartung und Verwaltung von Netzwerken senken, indem sie Routineaufgaben automatisiert und die Ressourcennutzung optimiert.
  • Verbesserte Sicherheit: KI kann Bedrohungen in Echtzeit erkennen und darauf reagieren, wodurch Netzwerksicherheitsverstöße und die Risiken von Angriffen reduziert werden.
  • Vorhersagefähigkeiten: Mithilfe der vorausschauenden Analysen von KI können Rechenzentren Netzwerke auf der Grundlage erwarteter Anforderungen und Anliegen aufbauen und warten.

Durch den Einsatz von maschinellem Lernen und künstlicher Intelligenz zur Verbesserung von Effizienz, Skalierbarkeit, Sicherheit und Kosten verändert das KI Data Center Networking die Verwaltung und Optimierung der Netzwerkinfrastruktur.

Welche Vorteile bietet Ethernet gegenüber InfiniBand für AI Data Center Networking?

Bei den ersten HPC- (High Performance Computing) und KI-Trainingsnetzwerken, InfiniBand, gewannen proprietäre InfiniBand-Hochgeschwindigkeitsnetzwerke mit geringer Latenzzeit aufgrund ihrer schnellen und effizienten Kommunikation zwischen Servern und Speichersystemen zunächst an Beliebtheit. Heute gewinnt Ethernet als offene Alternative am Markt für moderne KI-Netzwerke in Rechenzentren zunehmend an Bedeutung und wird sich voraussichtlich zur dominierenden Technologie entwickeln.

Während proprietäre Technologien wie InfiniBand Fortschritte und Innovationen mit sich bringen können, sind sie teuer und verlangen Aufschläge, wo wettbewerbsorientierte Angebots- und Nachfragemärkte die Kosten nicht regulieren können. Darüber hinaus ist der Pool an Netzwerkexperten, die ein Ethernet-Netzwerk aufbauen und betreiben können, im Vergleich zu einem proprietären InfiniBand-Netzwerk riesig, und es steht eine breite Palette an Tools zur Verwaltung solcher Netzwerke zur Verfügung, im Gegensatz zur InfiniBand-Technologie, die hauptsächlich von NVIDIA bezogen wird.

Neben IP ist Ethernet die weltweit am weitesten verbreitete Netzwerktechnologie. Ethernet hat sich weiterentwickelt und ist schneller, zuverlässiger und skalierbarer geworden. Daher wird es für die Bewältigung der hohen Anforderungen an Datendurchsatz und geringe Latenz von KI-Anwendungen bevorzugt. Die Weiterentwicklung hin zu 800 GbE und 1,6 T Ethernet ermöglicht eine Datenübertragung mit hoher Kapazität, geringer Latenz und ohne Verluste, wodurch Ethernet-Fabrics für KI-Datenverkehr mit hoher Priorität und für unternehmenskritische Anwendungen äußerst wünschenswert werden.

Was ist die Zukunft von AI Data Center Networking?
  • KI-gestützte Netzwerkautomatisierung: KI wird die Netzwerkautomatisierung verbessern, manuelle Eingriffe überflüssig machen und die Betriebseffizienz verbessern.
  • Edge-KI: Mit der zunehmenden Verbreitung von Edge Computing wird KI Daten lokal am Netzwerk-Edge analysieren, wodurch die Latenz verringert und die Entscheidungsfindung in Echtzeit verbessert wird.
  • KI für Cybersicherheit: Erweiterte Erkennung von Sicherheitsbedrohungen, Anomalie-Erkennung in Echtzeit und automatisierte Reaktion auf Vorfälle verbessern die Netzwerksicherheit.
  • 5G und mehr: Das KI-gestützte Netzwerk Management wird 5G und den Netzwerken der Zukunft dabei helfen, Komplexität und Datenmengen zu bewältigen.
  • Selbstoptimierende Netzwerke: Mithilfe von KI werden Netzwerke in der Lage sein, Einstellungen zu ändern, Fehler vorherzusagen und die Leistung ohne menschliches Eingreifen zu optimieren.
  • Nachhaltigkeit: KI wird die Energie- und Kühlsysteme in Rechenzentren optimieren und so die Umweltauswirkungen verringern.
  • KI-gestützte Netzwerkanalysen: Erweiterte KI-Analysen werden die Entscheidungsfindung verbessern, indem sie Netzwerkleistung, Benutzerverhalten und aufkommende Muster aufdecken.

Die Implementierung von KI in das Data Center Networking ist komplex, aber strategische Ansätze und bewährte Methoden können hilfreich sein. KI Data Center Networking ist auf Automatisierung, Sicherheit und Effizienz ausgerichtet.

Welche Produkte und Lösungen bietet HPE Juniper Networking für das AI Data Center Networking an?

Die KI-basierte Netzwerklösung für Rechenzentren von HPE Juniper Networking bietet ein KI-Rechenzentrums-Netzwerkdesign mit hoher Kapazität und verlustfreier Übertragung, das die Vorteile einer Any-to-Any Non-Blocking Clos-Fabric nutzt – die vielseitigste Topologie zur Optimierung von KI-Trainingsframeworks. Die Lösung nutzt leistungsstarke, auf offenen Standards basierende Ethernet-Switches und -Router mit Schnittstellen bis zu 800 GbE. Darüber hinaus verwendet sie die Intent-basierte Netzwerksoftware Apstra Data Center Director zur Automatisierung und Validierung des Lebenszyklus des KI-Rechenzentrums-Netzwerks vom Tag 0 bis zum laufenden Betrieb.

Was sind die wichtigsten Überlegungen zum AI Data Center Networking?

Wichtige Überlegungen für Unternehmen, die KI in ihren Rechenzentrumsnetzwerken einführen möchten:

  • Bewerten Sie die Geschäftsanforderungen und -ziele: Verstehen Sie die spezifischen Ziele und Vorgaben für die Einführung von KI im Data Center Networking. Bestimmen Sie den Erfolg anhand von mehr Effizienz, Sicherheit, Kosteneinsparungen oder Skalierbarkeit.
  • Bewerten Sie die aktuelle Infrastruktur und Bereitschaft: Bewerten Sie die Hardware-, Software- und Datenarchitektur auf ihre Bereitschaft zur KI-Integration. Identifizieren Sie alle Lücken oder Bereiche, die Verbesserungen oder Änderungen erfordern könnten.
  • Datenqualität und -verfügbarkeit: Stellen Sie hochwertige Daten für das Training von KI-Modellen und die Entscheidungsfindung bereit. Richtlinien zur Daten-Governance sorgen für Datenintegrität, Sicherheit und Compliance.
  • Überlegungen zu Sicherheit und Datenschutz: Priorisieren Sie beim Einsatz von KI-Lösungen die Cybersicherheit und den Datenschutz. Entwickeln Sie sichere KI-Systeme, die Normen und Anforderungen erfüllen.
  • KI-Integration und Kompatibilität: Erstellen Sie einen umfassenden Integrationsplan, um KI reibungslos in Netzwerksysteme zu integrieren. Denken Sie an die Kompatibilität älterer Infrastrukturen und die Interoperabilität zukünftiger Technologien.
  • Fähigkeiten und Schulung: Bewerten Sie die KI-Kenntnisse des Unternehmens und identifizieren Sie Lücken. Helfen Sie IT-Experten dabei, das Management und die Nutzung KI-gestützter Technologien zu erlernen.
  • Beginnen Sie mit Pilotprojekten: Testen Sie KI-Anwendungen mithilfe kleiner Pilotprojekte unter realen Bedingungen. Pilotprogramme testen KI-Systeme, decken Probleme auf und verbessern die Implementierungstaktiken vor der Bereitstellung.
  • ROI und Kosten: Bewerten Sie ROI und TCO für die KI-Bereitstellung. Berücksichtigen Sie die Kosten für Infrastruktur, Softwarelizenzen, Wartung und Schulung.
  • Anbieterauswahl und Partnerschaften: Wählen Sie seriöse Lieferanten und Technologiepartner mit nachgewiesener Kompetenz in den Bereichen KI und Data Center Networking. Arbeiten Sie eng zusammen, um die Unternehmensziele zu erreichen, und nutzen Sie die Unterstützung des Anbieters für eine effektive Umsetzung.
  • Überwachung und kontinuierliche Verbesserung: Tracken Sie die kommerziellen Ergebnisse von KI-Lösungen anhand von Metriken und KPIs. Verbessern Sie sich ständig durch datenorientierte Bewertungen, Aktualisierungen und Optimierungen.

Durch die Berücksichtigung dieser Merkmale können Unternehmen KI in ihrem Data Center Networking planen und implementieren, um Leistung, Effizienz und Sicherheit zu maximieren und gleichzeitig die Risiken zu minimieren.

Zugehörige Lösungen, Produkte oder Services

Juniper Data Center Interconnect

KI-fähiges Netzwerk-Switching

HPE Aruba Networking CX 10000 Switch Series

Zugehörige Themen

KI-Datamanagement

Edge-Rechenzentrum

Edge-Netzwerk

Data Center Networking

Sicherheit des Rechenzentrums

Rechenzentren in Unternehmen