Tecnología

DiLoCo: Entrenamiento Distribuido de Modelos en Gonka

Grandes modelos de lenguaje como GPT o Qwen se entrenan en enormes clústeres de GPU conectados por canales ultrarrápidos. DiLoCo (Distributed Local Computation) cambia las reglas del juego: permite entrenar dichos modelos a través de Internet normal, sin un solo centro de datos.

Por qué es necesario el Entrenamiento Distribuido

Los modelos de IA modernos contienen cientos de miles de millones de parámetros. Entrenar un modelo así requiere cientos de GPU trabajando sincrónicamente. El enfoque tradicional es reunir todas las GPU en un centro de datos y conectarlas con InfiniBand. Esto es costoso, limita la escala y crea un único punto de falla. DiLoCo permite la capacitación distribuida en clústeres en diferentes partes del mundo.

Cómo funciona DiLoCo

Cada clúster de GPU (por ejemplo, 8xH100) entrena el modelo localmente utilizando el optimizador AdamW. Aproximadamente cada ~1,000 pasos, los clústeres se sincronizan entre sí a través de un optimizador global (Nesterov momentum). La sincronización requiere un ancho de banda mínimo; un canal de Internet normal es suficiente. Esto es radicalmente diferente del enfoque clásico donde las GPU intercambian datos en cada paso.

Qué implica esto para la red Gonka

Gracias a DiLoCo, Gonka puede entrenar modelos con 30-50 mil millones de parámetros utilizando GPU de host dispersas por todo el mundo. No se necesita un único centro de datos, solo clústeres de 8 GPU con conexión a Internet. Esto hace que el entrenamiento de IA sea verdaderamente descentralizado y abre el camino para modelos entrenados por la propia comunidad.
DiLoCo es una tecnología para entrenar modelos de IA a través de Internet. Los clústeres de GPU funcionan de forma independiente y se sincronizan rara vez, lo que permite a Gonka entrenar modelos sin un centro de datos centralizado.

¿Quieres saber más?

Entiende la economía de GNK o empieza a ganar ahora mismo.

Lea también