Technologia

DiLoCo: rozproszone uczenie modeli w Gonka

Duże modele językowe, takie jak GPT czy Qwen, są szkolone na ogromnych klastrach GPU połączonych ultraszybkimi kanałami. DiLoCo (Distributed Local Computation) zmienia zasady gry – pozwala szkolić takie modele przez zwykły internet, bez jednego centrum danych.

Po co jest rozproszone uczenie

Nowoczesne modele AI zawierają setki miliardów parametrów. Szkolenie takiego modelu wymaga setek GPU pracujących synchronicznie. Tradycyjne podejście polega na zgromadzeniu wszystkich GPU w jednym centrum danych i połączeniu ich za pomocą InfiniBand. Jest to kosztowne, ogranicza skalę i tworzy pojedynczy punkt awarii. DiLoCo umożliwia rozłożenie szkolenia na klastry w różnych częściach świata.

Jak działa DiLoCo

Każdy klaster GPU (np. 8xH100) trenuje model lokalnie, używając optymalizatora AdamW. Mniej więcej co ~1000 kroków klastry synchronizują się ze sobą za pomocą globalnego optymalizatora (Nesterov momentum). Synchronizacja wymaga minimalnej przepustowości — wystarczy zwykły kanał internetowy. To radykalnie różni się od klasycznego podejścia, gdzie GPU wymieniają dane na każdym kroku.

Co to daje sieci Gonka

Dzięki DiLoCo Gonka może szkolić modele o 30-50 miliardach parametrów, wykorzystując GPU hostów rozproszonych po całym świecie. Nie jest potrzebne jedno centrum danych — wystarczą klastry składające się z 8 GPU z dostępem do internetu. To sprawia, że szkolenie AI jest prawdziwie zdecentralizowane i otwiera drogę do modeli szkolonych przez samą społeczność.
DiLoCo – technologia szkolenia modeli AI przez internet. Klastry GPU działają niezależnie i rzadko się synchronizują, co pozwala Gonka na szkolenie modeli bez scentralizowanego centrum danych.

Chcesz dowiedzieć się więcej?

Poznaj ekonomię GNK lub zacznij zarabiać już teraz.

Przeczytaj także