Sie sind hier: HomeDatacenter

KI und Rechenzentren: Kommunikation in Ost-West-Richtung

KI und maschinelles Lernen sind auf dem Vormarsch. Im Gepäck haben sie nicht nur viele Chancen für Unternehmen – sondern auch eine ganze Reihe von Anforderungen an Rechenzentren, denn KI-Vorgänge arbeiten mit enormen Datenmengen und bringen so manches System an seine Leistungsgrenze.

Künstliche Intelligenz Bildquelle: © Fotolia, monsitj

In unserem Alltag setzen wir längst auf KI: für schnelle Übersetzungen, zur Gesichtserkennung, bei der Diagnose von Krankheiten oder im Kampf gegen den Drogenhandel. Und die Bedeutung von KI wird wachsen: Gartner sagt voraus, dass das Geschäft mit KI bis 2022 einen Wert von 3,9 Billionen US-Dollar erreicht haben wird.

Diese Entwicklung setzt riesige Datenströme voraus und produziert sie selbst. Für Rechenzentren, die Knotenpunkte der digitalen Welt, bleibt das nicht ohne Folgen.

KI und Energiekosten
Wie der Mensch können auch Rechenzentren von KI profitieren. Google-Selbsttests aus dem Jahr 2014 zeigten, dass sich der Stromverbrauch in Rechenzentren mit Machine Learning (ML) optimieren lässt. Am Teststandort konnte der Energieverbrauch für die Kühlung um beeindruckende 40 Prozent verringert werden. Die sogenannte Power Usage Effectiveness (PUE), die angibt, wie effizient Rechenzentren Energie nutzen, erreichte in Folge dessen einen Allzeit-Bestwert. Google setzt dieses Verfahren inzwischen auch an anderen Standorten erfolgreich ein und es dürfte nur eine Frage der Zeit sein, bis weitere Technologiekonzerne folgen.

KI hat also definitiv Vorteile für Rechenzentren – aber die Datenströme stellen eine enorme Herausforderung dar. So werden allein für das Training des Chinesisch-Spracherkennungs-Modells von Baidu vier Terabyte Trainingsdaten und gleichzeitig 20 Exaflops Rechenleistung benötigt.

Man muss kein Hellseher sein, um zu wissen, dass die Datenmenge mit jedem weiteren KI-gestützten Modell wachsen wird und dies die Anforderungen an die Rechenzentrumsarchitektur verändert. So wäre es zwar möglich, ML-Modelle auf einem Rechner laufen zu lassen, aber in der Regel wird das immense Datenaufkommen auf mehrere Einheiten verteilt. Dabei müssen Latenzen oder Störungen möglichst vermieden werden und die Bandbreite, mit der die verteilten Instanzen kommunizieren, muss ausreichend groß sein. Herkömmliche Architekturen, die auf verschiedenen Layern basieren, können diesen Anforderungen nicht standhalten. Traditionelle 3-Tier-Netzwerke nutzen Core, Aggregat und Edge Switching, um die verschiedenen Server innerhalb eines Rechenzentrums zu verbinden. Dieser Inter-Server-Traffic wird dabei in Nord-Süd-Richtung übertragen. Benötigte man in der Vergangenheit mehr Kapazität, konnte man einfach mit mehreren Switches und weiteren Kabeln aufstocken, die Kommunikation verlief wie gehabt in Nord-Süd-Richtung. Doch der veränderte Datenfluss im Rechenzentrum – auch bedingt durch die zunehmende Virtualisierung und die schon beschriebenen Anforderungen, die KI und ML ins Spiel bringen – gewinnen sogenannte 2-Tier-Spine-Leaf-Architekturen an Relevanz.

2-Tier-Spine-Leaf-Architektur
In dieser Topologie kommunizieren die Server in Ost-West-Richtung miteinander. Würde man versuchen, diesen Datenfluss in einem dreischichtigen Rechenzentrum zu verarbeiten, käme es selbst mit schnelleren Switches früher oder später zum Datenstau. Verhängnisvoll für jedes ML-basierte Modell.

In einer Spine-Leaf-Architektur werden Aggregat und Switches miteinander verbunden, sodass eine zweischichtige Topologie entsteht, die horizontal skaliert. Durch diese Anordnung lässt sich das Verhalten der Anwendungen besser vorhersagen und managen. Außerdem ist das Rechenzentrum in der Lage, alle Verbindungen zwischen Spine und Leaf flexibel zu nutzen. Wächst der Netzwerkverkehr, passt sich das Rechenzentrum einfach an. Neben der Topologie des Rechenzentrums spielt auch die Verkabelung eine wichtige Rolle. Glasfaserkabel sind bereits der de facto Standard für die Datenübertragung, da sie herkömmlichen Kupferkabeln hinsichtlich Geschwindigkeit und Dichte weit überlegen sind. Doch welche Technologie kann die gestiegenen Anforderungen durch KI am besten bewältigen?

Seit das Institute of Electrical and Electronics Engineers (IEEE) im Jahr 2010 Übertragungsraten von 40G und 100G zugelassen hat, existiert eine Vielzahl konkurrierender Lösungen, die es den Verantwortlichen nicht immer leicht macht. Was früher eine einfache Entscheidung zwischen Short und Long Reach (SR und LR Transceiver) war, umfasst heute viel mehr Optionen: Rechenzentrumsverantwortliche können einerseits Duplex-Technologien unter Verwendung von standardgenehmigten oder proprietären, nicht interoperablen WDM-Techniken nutzen. Die Wavelength-Division-Multiplexing-Techniken ermöglichen die Mehrfachnutzung von Glasfaserleitung für die Übertragung mit mehreren Stationen durch die Anwendung verschiedener Wellenlängen beziehungsweise die Aufsplittung des Lichtes in verschiedene Farben. Andererseits stehen ihnen auch Multi-Source-Vereinbarungen (MSAs) und Techniken für eine parallel-optische Übertragung mit acht Fasern (vier für die Übertragung, vier für den Empfang) oder 20 Fasern (zehn für die Übertragung, zehn für den Empfang) zur Verfügung. Alle Varianten haben Vor-und Nachteile. Hinsichtlich der wachsenden ML-Rechenmodelle haben Singlemode-Fasern mit parallel-optischer Übertragung jedoch die Nase vorn.

Der Hauptvorteil der parallel-optischen Übertragung mit Singlemode-Fasern liegt in der Flexibilität: Rechenzentrums-Architekten haben beispielsweise die Möglichkeit, einen 40G-Hochgeschwindigkeits-Switchport in vier 10G-Serverports zu zerlegen. Dieses Verfahren bietet große Skalierbarkeit, da so auch die Anzahl der Gehäuse und Höheneinheiten im Netzwerkschrank deutlich reduziert werden kann.

Diese Tatsache wirkt sich positiv auf die Kosten aus: Die Stromkosten für den Rechenzentrumsbetrieb lassen sich um bis zu 30 Prozent senken und auch der Platzbedarf verringert sich merklich. Zudem
dominieren parallel-optische Lösungen den Markt, daher sind sie günstiger und schneller verfügbar als WDM-Lösungen. Sie benötigen keine Wellenlängenmultiplexer und unterstützen zudem geringere
Distanzen als die WDM-Lösungen für zwei Kilometer und zehn Kilometer. Kostenintensive Zusatzanschaffungen von Komponenten, die die Laser kühlen, entfallen daher. Auch wenn die bisweilen Fußballfeld-großen Serverfarmen vermuten lassen, dass die Distanzen immer größer werden, zeigen Analysen, dass selbst dort die durchschnittliche Distanz 165 Meter noch nicht überschritten hat, so dass der Einsatz von parallel-optischen Lösungen sich auch im Singlemode Bereich lohnt. Auch die einfache Migration spricht für diese Variante: Die Technologie-Roadmaps der großen Switch- und Trans-ceiver-Hersteller zeigen, dass ihre Kunden einfach auf die nächste Stufe der Datenübertragung migrieren können, wenn diese verfügbar ist, ohne die Glasfaserinfrastruktur auszutauschen. Bei einer zweifaserbasierten Infrastruktur hingegen können sie nicht sicher sein, ob eine entsprechende WDM-Optik bereits verfügbar ist, wenn sie auf 100G oder höhere Geschwindigkeiten migrieren möchten. Businesschancen, die an die Leistungsfähigkeit des Rechenzentrums geknüpft sind, ziehen dann vielleicht ungenutzt vorüber.

Zusammengefasst lässt sich festhalten: KI hat das Potenzial, unsere Welt nachhaltig zu verändern – aber ohne entsprechende Rechenzentren werden sich viele Visionen oder digitale Services nicht
umsetzen lassen. Ein engmaschiges Glasfasernetz, verbunden mit ausreichender Bandbreite und Kommunikation in Ost-West-Richtung in einer 2-Tier-Spine-Leaf-Architektur stellen eine wichtige Grundlage für das zukunftsfähige Rechenzentrums-Design dar. Singlemode-
Fasern und parallel-optische Übertragung bieten in einem KI-Umfeld die besten Möglichkeiten.

Anthony Robinson ist Global Marketing Applications Manager für Rechenzentren bei Corning Optical Communications.