ٹیکنالوجی
DiLoCo: گونگا میں ماڈلز کی تقسیم شدہ تربیت
GPT یا Qwen جیسے بڑے زبان کے ماڈلز کو انتہائی تیز چینلز سے جڑے ہوئے بڑے GPU کلسٹرز پر تربیت دی جاتی ہے۔ DiLoCo (Distributed Local Computation) کھیل کے قوانین کو تبدیل کرتا ہے — یہ ایسے ماڈلز کو عام انٹرنیٹ کے ذریعے، ایک بھی ڈیٹا سینٹر کے بغیر تربیت دینے کی اجازت دیتا ہے۔
تقسیم شدہ تربیت کی ضرورت کیوں ہے
جدید AI ماڈلز میں سینکڑوں ارب پیرامیٹرز ہوتے ہیں۔ ایسے ماڈل کو تربیت دینے کے لیے سینکڑوں GPUs کی ضرورت ہوتی ہے جو متوازی طور پر کام کریں۔ روایتی طریقہ یہ ہے کہ تمام GPUs کو ایک ہی ڈیٹا سینٹر میں جمع کیا جائے اور InfiniBand سے منسلک کیا جائے۔ یہ مہنگا ہے، پیمانے کو محدود کرتا ہے اور ایک واحد ناکامی کا نقطہ پیدا کرتا ہے۔ DiLoCo تربیت کو دنیا کے مختلف حصوں میں کلسٹرز میں تقسیم کرنے کی اجازت دیتا ہے۔
DiLoCo کیسے کام کرتا ہے
ہر GPU کلسٹر (مثال کے طور پر، 8xH100) AdamW آپٹیمائزر کا استعمال کرتے ہوئے مقامی طور پر ماڈل کو تربیت دیتا ہے۔ تقریباً ہر ~1,000 مراحل پر، کلسٹرز ایک عالمی آپٹیمائزر (Nesterov momentum) کے ذریعے ایک دوسرے کے ساتھ ہم آہنگ ہوتے ہیں۔ ہم آہنگی کے لیے کم سے کم بینڈوڈتھ کی ضرورت ہوتی ہے — ایک عام انٹرنیٹ چینل کافی ہے۔ یہ روایتی نقطہ نظر سے یکسر مختلف ہے، جہاں GPUs ہر قدم پر ڈیٹا کا تبادلہ کرتے ہیں۔
یہ گونگا نیٹ ورک کو کیا دیتا ہے
DiLoCo کی بدولت گونکا 30-50 بلین پیرامیٹرز والے ماڈلز کو تربیت دے سکتا ہے، جس میں دنیا بھر میں بکھرے ہوئے ہوسٹوں کے GPUs استعمال ہوتے ہیں۔ کسی ایک ڈیٹا سینٹر کی ضرورت نہیں — صرف 8 GPUs کے کلسٹرز جن میں انٹرنیٹ کنکشن ہو کافی ہیں۔ یہ AI ٹریننگ کو واقعی غیر مرکزی بناتا ہے اور کمیونٹی کے ذریعے خود تربیت یافتہ ماڈلز کی راہ ہموار کرتا ہے۔
DiLoCo - انٹرنیٹ کے ذریعے AI ماڈلز کی تربیت کی ٹیکنالوجی۔ GPU کلسٹرز آزادانہ طور پر کام کرتے ہیں اور شاذ و نادر ہی ہم آہنگ ہوتے ہیں، جس سے گونکا مرکزی ڈیٹا سینٹر کے بغیر ماڈلز کو تربیت دے سکتا ہے۔
مزید پڑھیں
ٹیکنالوجی
پروف آف ورک 2.0 کیا ہے
ٹیکنالوجی
پروف-آف-کمپیٹیشن V2: نوڈز کی ایمانداری کی جانچ کیسے کی جاتی ہے
بنیادی تصورات
انفرنس (inference) کیا ہے
ٹوکنومکس
GNK کی تقسیم کیسے ہوتی ہے: جینیسس بمقابلہ آمدنی
سیکورٹی
کوللیٹرل اور سلیشنگ: نیٹ ورک کیسے محفوظ ہے
ٹوکنومکس
ویسٹنگ: انعامات فوری طور پر کیوں نہیں آتے
آرکیٹیکچر
گونگا میں ٹرانسفر ایجنٹس کیا ہیں
ٹیکنالوجی
Sprint: گونگا کا اتفاق رائے کیسے کام کرتا ہے
بنیادی تصورات
GNK کیا ہے: گونگا نیٹ ورک کا ٹوکن
بنیادی تصورات
گونگا میں دور: نیٹ ورک کی وقت کی اکائی
ٹوکنومکس
کمیونٹی پول: گونگا ماحولیاتی نظام کا مشترکہ فنڈ