Teknologi

DiLoCo: Pembelajaran Model Terdistribusi di Gonka

Model bahasa besar seperti GPT atau Qwen dilatih pada klaster GPU besar yang terhubung oleh saluran ultra-cepat. DiLoCo (Distributed Local Computation) mengubah permainan – memungkinkan pelatihan model-model tersebut melalui internet biasa, tanpa pusat data tunggal.

Mengapa Pembelajaran Terdistribusi Diperlukan

Model AI modern mengandung ratusan miliar parameter. Melatih model semacam itu membutuhkan ratusan GPU yang bekerja secara sinkron. Pendekatan tradisional adalah mengumpulkan semua GPU dalam satu pusat data dan menghubungkannya dengan InfiniBand. Ini mahal, membatasi skala, dan menciptakan satu titik kegagalan. DiLoCo memungkinkan pelatihan terdistribusi di seluruh klaster di berbagai belahan dunia.

Cara Kerja DiLoCo

Setiap klaster GPU (misalnya, 8xH100) melatih model secara lokal menggunakan pengoptimal AdamW. Kira-kira setiap ~1.000 langkah, klaster menyinkronkan satu sama lain melalui pengoptimal global (Nesterov momentum). Sinkronisasi membutuhkan pita lebar (bandwidth) minimum – saluran internet biasa sudah cukup. Ini sangat berbeda dari pendekatan klasik di mana GPU bertukar data di setiap langkah.

Apa Manfaatnya bagi Jaringan Gonka

Berkat DiLoCo, Gonka dapat melatih model dengan 30-50 miliar parameter, menggunakan GPU host yang tersebar di seluruh dunia. Tidak diperlukan pusat data tunggal – cukup klaster 8 GPU dengan koneksi internet. Ini membuat pelatihan AI benar-benar terdesentralisasi dan membuka jalan bagi model yang dilatih oleh komunitas itu sendiri.
DiLoCo adalah teknologi untuk melatih model AI melalui internet. Klaster GPU bekerja secara independen dan jarang menyinkronkan, memungkinkan Gonka melatih model tanpa pusat data terpusat.

Ingin tahu lebih banyak?

Pahami ekonomi GNK atau mulai dapatkan penghasilan sekarang juga.

Baca juga