Технологія

DiLoCo: розподілене навчання моделей у Gonka

Великі мовні моделі на зразок GPT або Qwen навчаються на величезних кластерах GPU, з'єднаних надшвидкісними каналами. DiLoCo (Distributed Local Computation) змінює правила гри — дозволяє навчати такі моделі через звичайний інтернет, без єдиного дата-центру.

Навіщо потрібне розподілене навчання

Сучасні AI-моделі налічують сотні мільярдів параметрів. Навчання такої моделі потребує сотень GPU, що працюють синхронно. Традиційний підхід — зібрати всі GPU в одному дата-центрі та з'єднати InfiniBand. Це дорого, обмежує масштаб і створює єдину точку відмови. DiLoCo дозволяє розподілити навчання по кластерах у різних точках світу.

Як працює DiLoCo

Кожен кластер GPU (наприклад, 8xH100) навчає модель локально, використовуючи оптимізатор AdamW. Приблизно раз на ~1 000 кроків кластери синхронізуються між собою через глобальний оптимізатор (Nesterov momentum). Синхронізація вимагає мінімальної пропускної здатності — достатньо звичайного інтернет-каналу. Це радикально відрізняється від класичного підходу, де GPU обмінюються даними на кожному кроці.

Що це дає мережі Gonka

Завдяки DiLoCo Gonka може навчати моделі на 30-50 мільярдів параметрів, використовуючи GPU хостів, розкиданих по всьому світу. Не потрібен єдиний дата-центр — достатньо кластерів з 8 GPU з інтернет-підключенням. Це робить навчання AI по-справжньому децентралізованим і відкриває шлях до моделей, навчених самою спільнотою.
DiLoCo — технологія навчання AI-моделей через інтернет. Кластери GPU працюють незалежно і синхронізуються рідко, що дозволяє Gonka навчати моделі без централізованого дата-центру.

Бажаєте дізнатися більше?

Розберіться в економіці GNK або почніть заробляти прямо зараз.

Також читайте