Технология

DiLoCo: распределённое обучение моделей в Gonka

Большие языковые модели вроде GPT или Qwen обучаются на огромных кластерах GPU, соединённых сверхбыстрыми каналами. DiLoCo (Distributed Local Computation) меняет правила игры — позволяет обучать такие модели через обычный интернет, без единого дата-центра.

Зачем нужно распределённое обучение

Современные AI-модели содержат сотни миллиардов параметров. Обучение такой модели требует сотен GPU, работающих синхронно. Традиционный подход — собрать все GPU в одном дата-центре и соединить InfiniBand. Это дорого, ограничивает масштаб и создаёт единую точку отказа. DiLoCo позволяет распределить обучение по кластерам в разных точках мира.

Как работает DiLoCo

Каждый кластер GPU (например, 8xH100) обучает модель локально, используя оптимизатор AdamW. Раз в ~1 000 шагов кластеры синхронизируются между собой через глобальный оптимизатор (Nesterov momentum). Синхронизация требует минимальной пропускной способности — достаточно обычного интернет-канала. Это радикально отличается от классического подхода, где GPU обмениваются данными на каждом шаге.

Что это даёт сети Gonka

Благодаря DiLoCo Gonka может обучать модели на 30--50 миллиардов параметров, используя GPU хостов, разбросанных по всему миру. Не нужен единый дата-центр — достаточно кластеров из 8 GPU с интернет-подключением. Это делает обучение AI по-настоящему децентрализованным и открывает путь к моделям, обученным самим сообществом.
DiLoCo — технология обучения AI-моделей через интернет. Кластеры GPU работают независимо и синхронизируются редко, что позволяет Gonka обучать модели без централизованного дата-центра.

Хотите узнать больше?

Разберитесь в экономике GNK или начните зарабатывать прямо сейчас.

Читайте также