Technologie

DiLoCo: verteiltes Modelltraining in Gonka

Große Sprachmodelle wie GPT oder Qwen werden auf riesigen GPU-Clustern trainiert, die über ultraschnelle Kanäle verbunden sind. DiLoCo (Distributed Local Computation) ändert die Spielregeln – es ermöglicht das Training solcher Modelle über das normale Internet, ohne ein einziges Rechenzentrum.

Warum verteiltes Training notwendig ist

Moderne KI-Modelle enthalten Hunderte Milliarden Parameter. Das Training eines solchen Modells erfordert Hunderte von GPUs, die synchron arbeiten. Der traditionelle Ansatz besteht darin, alle GPUs in einem Rechenzentrum zu sammeln und mit InfiniBand zu verbinden. Dies ist teuer, begrenzt den Umfang und schafft einen einzigen Ausfallpunkt. DiLoCo ermöglicht die Verteilung des Trainings auf Cluster an verschiedenen Orten der Welt.

Wie DiLoCo funktioniert

Jeder GPU-Cluster (z. B. 8xH100) trainiert das Modell lokal mit dem AdamW-Optimierer. Etwa alle ~1.000 Schritte synchronisieren sich die Cluster über einen globalen Optimierer (Nesterov momentum). Die Synchronisierung erfordert minimale Bandbreite – ein обычный Internetkanal reicht aus. Dies unterscheidet sich radikal vom klassischen Ansatz, bei dem GPUs bei jedem Schritt Daten austauschen.

Was das dem Gonka-Netzwerk bringt

Dank DiLoCo kann Gonka Modelle mit 30-50 Milliarden Parametern trainieren, indem es GPUs von Hosts nutzt, die auf der ganzen Welt verteilt sind. Es ist kein einziges Rechenzentrum erforderlich – Cluster von 8 GPUs mit Internetverbindung reichen aus. Dies macht das KI-Training wirklich dezentralisiert und ebnet den Weg für Modelle, die von der Community selbst trainiert werden.
DiLoCo – Technologie zum Training von KI-Modellen über das Internet. GPU-Cluster arbeiten unabhängig und synchronisieren sich selten, wodurch Gonka Modelle ohne zentrales Rechenzentrum trainieren kann.

Möchten Sie mehr erfahren?

Verstehen Sie die GNK-Ökonomie oder beginnen Sie jetzt zu verdienen.

Lesen Sie auch