Tecnologia

DiLoCo: addestramento distribuito di modelli in Gonka

I grandi modelli linguistici come GPT o Qwen vengono addestrati su enormi cluster GPU, collegati da canali ultraveloci. DiLoCo (Distributed Local Computation) cambia le regole del gioco — permette di addestrare tali modelli tramite la normale internet, senza un singolo data center.

Perché è necessario l'addestramento distribuito

I moderni modelli AI contengono centinaia di miliardi di parametri. L'addestramento di un tale modello richiede centinaia di GPU che lavorano in modo sincrono. L'approccio tradizionale è quello di raccogliere tutte le GPU in un unico data center e collegarle con InfiniBand. Questo è costoso, limita la scalabilità e crea un singolo punto di fallimento. DiLoCo consente di distribuire l'addestramento su cluster in diverse parti del mondo.

Come funziona DiLoCo

Ogni cluster GPU (ad esempio, 8xH100) addestra il modello localmente, utilizzando l'ottimizzatore AdamW. Circa ogni ~1.000 passaggi, i cluster si sincronizzano tra loro tramite un ottimizzatore globale (Nesterov momentum). La sincronizzazione richiede una larghezza di banda minima — è sufficiente una normale connessione internet. Questo differisce radicalmente dall'approccio classico, in cui le GPU scambiano dati a ogni passaggio.

Cosa offre alla rete Gonka

Grazie a DiLoCo, Gonka può addestrare modelli con 30-50 miliardi di parametri, utilizzando GPU di host distribuiti in tutto il mondo. Non è necessario un unico data center — sono sufficienti cluster di 8 GPU con connessione internet. Ciò rende l'addestramento dell'AI veramente decentralizzato e apre la strada a modelli addestrati dalla comunità stessa.
DiLoCo – tecnologia di addestramento di modelli AI tramite internet. I cluster GPU lavorano indipendentemente e si sincronizzano raramente, il che consente a Gonka di addestrare modelli senza un data center centralizzato.

Vuoi saperne di più?

Comprendi l'economia GNK o inizia a guadagnare subito.

Leggi anche