ٹیکنالوجی

DiLoCo: گونگا میں ماڈلز کی تقسیم شدہ تربیت

GPT یا Qwen جیسے بڑے زبان کے ماڈلز کو انتہائی تیز چینلز سے جڑے ہوئے بڑے GPU کلسٹرز پر تربیت دی جاتی ہے۔ DiLoCo (Distributed Local Computation) کھیل کے قوانین کو تبدیل کرتا ہے — یہ ایسے ماڈلز کو عام انٹرنیٹ کے ذریعے، ایک بھی ڈیٹا سینٹر کے بغیر تربیت دینے کی اجازت دیتا ہے۔

تقسیم شدہ تربیت کی ضرورت کیوں ہے

جدید AI ماڈلز میں سینکڑوں ارب پیرامیٹرز ہوتے ہیں۔ ایسے ماڈل کو تربیت دینے کے لیے سینکڑوں GPUs کی ضرورت ہوتی ہے جو متوازی طور پر کام کریں۔ روایتی طریقہ یہ ہے کہ تمام GPUs کو ایک ہی ڈیٹا سینٹر میں جمع کیا جائے اور InfiniBand سے منسلک کیا جائے۔ یہ مہنگا ہے، پیمانے کو محدود کرتا ہے اور ایک واحد ناکامی کا نقطہ پیدا کرتا ہے۔ DiLoCo تربیت کو دنیا کے مختلف حصوں میں کلسٹرز میں تقسیم کرنے کی اجازت دیتا ہے۔

DiLoCo کیسے کام کرتا ہے

ہر GPU کلسٹر (مثال کے طور پر، 8xH100) AdamW آپٹیمائزر کا استعمال کرتے ہوئے مقامی طور پر ماڈل کو تربیت دیتا ہے۔ تقریباً ہر ~1,000 مراحل پر، کلسٹرز ایک عالمی آپٹیمائزر (Nesterov momentum) کے ذریعے ایک دوسرے کے ساتھ ہم آہنگ ہوتے ہیں۔ ہم آہنگی کے لیے کم سے کم بینڈوڈتھ کی ضرورت ہوتی ہے — ایک عام انٹرنیٹ چینل کافی ہے۔ یہ روایتی نقطہ نظر سے یکسر مختلف ہے، جہاں GPUs ہر قدم پر ڈیٹا کا تبادلہ کرتے ہیں۔

یہ گونگا نیٹ ورک کو کیا دیتا ہے

DiLoCo کی بدولت گونکا 30-50 بلین پیرامیٹرز والے ماڈلز کو تربیت دے سکتا ہے، جس میں دنیا بھر میں بکھرے ہوئے ہوسٹوں کے GPUs استعمال ہوتے ہیں۔ کسی ایک ڈیٹا سینٹر کی ضرورت نہیں — صرف 8 GPUs کے کلسٹرز جن میں انٹرنیٹ کنکشن ہو کافی ہیں۔ یہ AI ٹریننگ کو واقعی غیر مرکزی بناتا ہے اور کمیونٹی کے ذریعے خود تربیت یافتہ ماڈلز کی راہ ہموار کرتا ہے۔

DiLoCo - انٹرنیٹ کے ذریعے AI ماڈلز کی تربیت کی ٹیکنالوجی۔ GPU کلسٹرز آزادانہ طور پر کام کرتے ہیں اور شاذ و نادر ہی ہم آہنگ ہوتے ہیں، جس سے گونکا مرکزی ڈیٹا سینٹر کے بغیر ماڈلز کو تربیت دے سکتا ہے۔

مزید جاننا چاہتے ہیں؟

GNK کی معیشت کو سمجھیں یا ابھی کمانا شروع کریں۔

گونگا نیٹ ورک آرکیٹیکچر →

DiLoCo: گونگا میں ماڈلز کی تقسیم شدہ تربیت

تقسیم شدہ تربیت کی ضرورت کیوں ہے

DiLoCo کیسے کام کرتا ہے

یہ گونگا نیٹ ورک کو کیا دیتا ہے

مزید جاننا چاہتے ہیں؟

مزید پڑھیں