Unsere KI-Gewohnheit verändert bereits die Art und Weise, wie wir Rechenzentren bauen • The Register
Analyse Der rasante Drang, KI-Infrastrukturen zu sichern und bereitzustellen, zwingt Rechenzentrumsbetreiber dazu, die Art und Weise, wie sie ihre Einrichtungen bauen und betreiben, neu zu überdenken.
In Ihrem typischen Rechenzentrum wird kalte Luft durch ein Rack voller Rechen-, Netzwerk- und Speichersysteme geleitet. Auf der Rückseite wird die erwärmte Luft dann erfasst und von der Kühlinfrastruktur der Anlage ausgestoßen.
Dieses Paradigma funktioniert gut für 6-10-kW-Racks, beginnt jedoch auseinanderzufallen, wenn man mit der Bereitstellung von Systemen beginnt, die zum Trainieren von KI-Modellen wie GPT-4 verwendet werden. Moderne GPU-Knoten können leicht den Strom eines ganzen Racks verbrauchen. Und dies zwingt Rechenzentrumsbetreiber dazu, einige gravierende Designänderungen vorzunehmen.
Tesla scheint der letzte zu sein, der dies erkannt hat. Wie wir Anfang dieser Woche berichteten, ist der US-amerikanische Hersteller von Elektrofahrzeugen auf der Suche nach Leuten, die ihn beim Bau „der ersten Rechenzentren seiner Art“ unterstützen.
In einer aktuellen Stellenausschreibung gab das Unternehmen bekannt, dass es nach einem Senior Engineering Program Manager für Rechenzentren sucht, der „das End-to-End-Design und die Konstruktion von Teslas ersten Rechenzentren seiner Art leiten und einer der wichtigsten Mitglieder von sein wird.“ sein Ingenieurteam.“
Diese Person wäre auch für die Überwachung des Baus eines neuen Rechenzentrums verantwortlich. Dies deutet darauf hin, dass dies möglicherweise nichts mit Berichten von The Information zu tun hat, in denen behauptet wird, Tesla habe kürzlich einen Mietvertrag für ein Rechenzentrum in Sacramento übernommen, den Twitter nach der Übernahme des sozialen Netzwerks durch CEO Elon Musk aufgegeben hatte.
Es ist zwar nicht ganz klar, was das Unternehmen unter „ersten Rechenzentren seiner Art“ versteht – wir haben Tesla gefragt und noch keine Antwort erhalten –, aber es könnte etwas mit dem maßgeschneiderten Dojo-KI-Beschleuniger zu tun haben, den es letztes Jahr auf der Hot Chips vorstellte .
Das Unternehmen plant, bis Ende 2024 mehr als eine Milliarde US-Dollar in das Projekt zu investieren, um die Entwicklung seiner Software für autonomes Fahren zu beschleunigen. Im Juli gab Musk bekannt, dass das Gesamtsystem 100 exaFLOPS überschreiten könnte, was unserer Vermutung nach BF16-Leistung entspricht.
Das bedeutet, dass Tesla einen Ort finden muss, an dem das Ding untergebracht werden kann, und jemanden, der dafür sorgt, dass das Licht an bleibt und all diese Punkte schweben. Und basierend auf dem, was wir über den Dojo-Beschleuniger wissen, könnte die Planung und Verwaltung einer Anlage, die ausreichend Strom und Kühlung liefern kann, um den KI-Beschleuniger am Laufen zu halten, ein kleiner Albtraum sein.
Dojo ist ein zusammensetzbarer Supercomputer, der vollständig von Tesla selbst entwickelt wurde. Alles, von der Rechenleistung über die Vernetzung und E/A bis hin zur Befehlssatzarchitektur, Stromversorgung, Verpackung und Kühlung, wurde speziell mit dem ausdrücklichen Ziel entwickelt, die maschinellen Lernalgorithmen von Tesla zu beschleunigen.
Der Grundbaustein dieses Systems ist Teslas D1-Chiplet. 25 davon sind mithilfe der System-on-Wafer-Technologie von TSMC in der Dojo-Schulungskachel zusammengefasst. Insgesamt verfügt das einen halben Kubikfuß große System über 11 GB SRAM, 9 TB/s Fabric-Konnektivität und kann 9 PetaFLOPS BF16-Leistung verwalten. Eine vollständige Aufschlüsselung des riesigen KI-Beschleunigers finden Sie auf unserer Schwesterseite The Next Platform.
Natürlich bringt die Unterbringung all dieser Leistung in einem so kompakten Formfaktor einige einzigartige Herausforderungen mit sich, etwa wie man einen einzelnen 15-kW-Beschleuniger mit Strom versorgt und kühlt, ganz zu schweigen von den sechs Beschleunigern, aus denen das 1-exaFLOPS-Dojo-V1-System besteht. Und das sind nur die Beschleuniger. Sie müssen außerdem alle unterstützenden Systeme, die den Datenfluss durch die Beschleuniger leiten und koordinieren, mit Strom versorgen und kühlen.
Dann ist da noch die Frage des Hochgeschwindigkeitsnetzes, das sich im Hinblick auf die Art und Weise, wie diese Kacheln eingesetzt werden können, als unerschwinglich erweisen könnte. Bei diesen Geschwindigkeiten ist es umso besser, je dichter man sie zusammenpacken kann, aber auch umso größer wird die thermische Belastung sein. Daher wäre es nicht verwunderlich, wenn Tesla die Idee, herkömmliche Racks zu verwenden, gänzlich zugunsten von etwas völlig Einzigartigem aufgeben würde.
Dieser bescheidene Geier würde sich persönlich über eine Rückkehr zu den wilden und verrückten Supercomputing-Designs von einst freuen. Früher waren Supercomputer seltsam und machten Spaß. Glauben Sie mir nicht? Schauen Sie einfach nach CM-1 oder Cray-2 von Thinking Machine. Das waren einige gut aussehende Maschinen.
Welche Form dieses System letztendlich auch annimmt, eines ist sicher: Wo auch immer Tesla sich für den Einsatz des Systems entscheidet, wird eine Wasserkühlungskapazität auf Supercomputing-Niveau benötigt.
Es ist nicht nur Tesla. Die durch die KI-Infrastruktur auferlegten Kühl- und Stromversorgungsanforderungen veranlassen bereits mehrere große Hyperscaler und DC-Betreiber dazu, die Art und Weise, wie sie ihre Rechenzentren aufbauen, neu zu überdenken.
Eines der Unternehmen, die diese Veränderungen vorantreiben, ist die Facebook-Muttergesellschaft Meta. Das Unternehmen investiert stark in die KI-Forschung und -Entwicklung und hat im vergangenen Jahr einen KI-Supercomputer mit 16.000 Nvidia A100-GPUs in Betrieb genommen.
Diese Infrastruktur hat nicht nur dazu beigetragen, die Entwicklung von KI-Modellen wie dem nicht gerade Open-Source-Großsprachmodell Llama 2 voranzutreiben, sondern auch dazu beigetragen, die Infrastruktur selbst zu gestalten. Meta, oder besser gesagt Facebook, hat bereits 2011 das Open Compute Project (OCP) ins Leben gerufen, um die Entwicklung der Rechenzentrumsinfrastruktur zu beschleunigen.
Auf dem OCP Summit im letzten Jahr stellte Meta seine Grand Teton AI-Trainingsplattform zusammen mit seiner Open Rack v3 (ORV3)-Spezifikation vor, die für die höhere Leistungs- und Wärmebelastung des Systems ausgelegt ist. In der Spezifikation heißt es beispielsweise, dass eine einzelne Sammelschiene 30-kW-Racks unterstützen kann.
„Mit höherer Steckdosenleistung geht ein immer komplexerer Wärmemanagementaufwand einher. Das ORV3-Ökosystem wurde entwickelt, um verschiedene Formen von Flüssigkeitskühlungsstrategien zu unterstützen, darunter luftunterstützte Flüssigkeitskühlung und Anlagenwasserkühlung“, schrieb Alexis Bjorlin, Vizepräsident für Infrastruktur bei Meta ein Blogbeitrag letzten Herbst. „Der Energietrend nimmt zu, und der Bedarf an Fortschritten bei der Flüssigkeitskühlung zwingt uns dazu, über alle Elemente unserer Plattform-, Rack-, Stromversorgungs- und Rechenzentrumskonstruktion anders nachzudenken.“
Dieser letzte Punkt zum Rechenzentrumsdesign ist besonders wichtig, da Meta kurz nach der Veröffentlichung dieses Blogbeitrags zwei niederländische Rechenzentren stornierte und ankündigte, ein drittes in Huntsville, Alabama, neu zu gestalten, was das Unternehmen als „strategische Investition in künstliche Intelligenz“ bezeichnete.
Eine der Schlüsseltechnologien, in die Meta und andere investieren, ist die sogenannte luftunterstützte Flüssigkeitskühlung. Wie der Name schon sagt, ist die Technologie so etwas wie ein halber Schritt in Richtung der vollständig flüssigkeitsgekühlten Infrastruktur, die wir seit Jahren in den Supercomputern HPE Cray, Atos und Lenovo sehen.
Die Technologie nutzt in großem Umfang Hintertür-Wärmetauscher (RDHx), um die anlagenweiten Infrastrukturinvestitionen zu reduzieren, die zur Unterstützung heißer laufender Chips erforderlich sind. RDHx sind eigentlich ganz einfach und bestehen aus kaum mehr als einem Rack-Radiator und einigen großen Lüftern. Die Technologie wird von vielen wegen ihrer Flexibilität bevorzugt, die den Einsatz in Einrichtungen mit oder ohne die für die Unterstützung der Flüssigkeitskühlung auf Rack-Ebene erforderlichen Rohrleitungen ermöglicht.
Im Fall von Meta betrachtet das Unternehmen RDHx als eine Möglichkeit, Wärme effizienter aus den Systemen abzuleiten. Nach unserem Verständnis umfasst die Implementierung direkt flüssigkeitsgekühlte (DLC) Server, die an einen im Rack befindlichen Behälter und eine Pumpe angeschlossen sind, die erhitztes Kühlmittel durch den RDHx treibt, wo die Wärme von den Systemen an den Warmgang abgegeben wird.
In dieser Konfiguration funktioniert der RDHx weitgehend wie ein benutzerdefinierter Wasserkühlkreislauf in einem Gaming-PC, aber statt ein System zu kühlen, ist er so konzipiert, dass er das gesamte Rack kühlt.
Dies ist jedoch nicht die einzige Art und Weise, wie wir eine luftunterstützte Flüssigkeitskühlung gesehen haben. RDHx kann auch zur Kühlung mit Luft verwendet werden. In dieser Konfiguration wird kaltes Anlagenwasser durch den RDHx gepumpt. Da heiße Luft an der Rückseite der luftgekühlten Systeme austritt, wird diese Wärme vom Kühler absorbiert. Meta hat im vergangenen Oktober einen vollständigen Artikel über die Machbarkeit dieser Technologie veröffentlicht [PDF].
Mehrere Colocation-Anbieter, darunter Digital Realty, Equinix, Cyxtera und Colovore, haben die Unterstützung für RDHx-Kühlung in ihren Rechenzentren bestätigt. Allerdings handelt es sich nach unserem Verständnis in der Regel um eine Art Sonderanfertigung.
Einer der größten Vorteile dieses Ansatzes, insbesondere für Colos, besteht darin, dass Kunden DLC nicht akzeptieren müssen, bevor sie bereit sind, und dass sie nicht das Minenfeld widersprüchlicher Standards unterstützen müssen, das die Flüssigkeitskühlungsbranche überschwemmt.
Die Vorteile dieser Technologie beschränken sich nicht nur auf KI- oder HPC-Workloads. Da CPUs immer heißer und kerndichter werden, verkaufen Chiphersteller – insbesondere AMD und Ampere – die Aussicht auf eine Verdichtung. Mit anderen Worten, die Konsolidierung mehrerer, möglicherweise vollgepackter Racks mit älteren Servern in eine Handvoll Server mit hoher Kernanzahl.
Das Problem besteht darin, dass diese kerndichten Systeme so viel Energie verbrauchen, dass Ihnen wahrscheinlich der Strom ausgeht, bevor das Rack nahezu voll ist. Rack-Konfigurationen mit höherer Dichte und Wärmetauscher an der Rückseite können es Kunden ermöglichen, einen Großteil ihrer Infrastruktur in einer Handvoll Racks unterzubringen. ®
Senden Sie uns Neuigkeiten
1414Holen Sie sich unser14