Tecnologia

DiLoCo: Treinamento Distribuído de Modelos na Gonka

Grandes modelos de linguagem como GPT ou Qwen são treinados em enormes clusters de GPUs conectados por canais ultrarrápidos. DiLoCo (Distributed Local Computation) muda as regras do jogo – permite treinar tais modelos pela internet comum, sem um único data center.

Por que o Treinamento Distribuído é Necessário

Modelos modernos de IA contêm centenas de bilhões de parâmetros. Treinar um modelo assim requer centenas de GPUs trabalhando sincronizadamente. A abordagem tradicional é reunir todas as GPUs em um data center e conectá-las com InfiniBand. Isso é caro, limita a escala e cria um único ponto de falha. DiLoCo permite o treinamento distribuído em clusters em diferentes partes do mundo.

Como DiLoCo Funciona

Cada cluster de GPU (por exemplo, 8xH100) treina o modelo localmente usando o otimizador AdamW. Aproximadamente a cada ~1.000 passos, os clusters sincronizam entre si por meio de um otimizador global (Nesterov momentum). A sincronização requer largura de banda mínima – um canal de internet comum é suficiente. Isso é radicalmente diferente da abordagem clássica, onde as GPUs trocam dados a cada passo.

O que isso significa para a rede Gonka

Graças ao DiLoCo, a Gonka pode treinar modelos com 30-50 bilhões de parâmetros usando GPUs de hosts espalhados por todo o mundo. Não é necessário um único data center – apenas clusters de 8 GPUs com conexão à internet. Isso torna o treinamento de IA verdadeiramente descentralizado e abre caminho para modelos treinados pela própria comunidade.
DiLoCo é uma tecnologia para treinar modelos de IA pela internet. Clusters de GPU funcionam independentemente e sincronizam raramente, permitindo que a Gonka treine modelos sem um data center centralizado.

Quer saber mais?

Entenda a economia GNK ou comece a ganhar agora mesmo.

Leia também