التكنولوجيا

DiLoCo: تدريب نماذج موزعة في Gonka

يتم تدريب نماذج اللغات الكبيرة مثل GPT أو Qwen على مجموعات ضخمة من وحدات معالجة الرسوميات (GPUs) المتصلة بقنوات فائقة السرعة. تغير DiLoCo (الحوسبة الموزعة المحلية) قواعد اللعبة - فهي تسمح بتدريب هذه النماذج عبر الإنترنت العادي، دون الحاجة إلى مركز بيانات واحد.

لماذا نحتاج إلى التدريب الموزع؟

تحتوي نماذج الذكاء الاصطناعي الحديثة على مئات المليارات من المعلمات. يتطلب تدريب مثل هذا النموذج مئات من وحدات معالجة الرسوميات (GPUs) التي تعمل بشكل متزامن. النهج التقليدي هو تجميع جميع وحدات معالجة الرسوميات في مركز بيانات واحد وربطها باستخدام InfiniBand. هذا مكلف ويحد من النطاق ويخلق نقطة فشل واحدة. يسمح DiLoCo بالتدريب الموزع عبر مجموعات في أجزاء مختلفة من العالم.

كيف تعمل DiLoCo

تقوم كل مجموعة GPU (على سبيل المثال، 8xH100) بتدريب النموذج محليًا باستخدام مُحسِّن AdamW. كل ~1,000 خطوة تقريبًا، تتزامن المجموعات مع بعضها البعض عبر مُحسِّن عالمي (Nesterov momentum). يتطلب التزامن الحد الأدنى من النطاق الترددي - يكفي قناة إنترنت عادية. وهذا يختلف جذريًا عن النهج الكلاسيكي حيث تتبادل وحدات معالجة الرسوميات البيانات في كل خطوة.

ماذا يمنح هذا لشبكة Gonka؟

بفضل DiLoCo، يمكن لـ Gonka تدريب نماذج تتراوح بين 30 إلى 50 مليار معلمة، باستخدام وحدات معالجة الرسوميات (GPUs) المضيفة المنتشرة في جميع أنحاء العالم. لا يلزم وجود مركز بيانات واحد - يكفي مجموعات من 8 وحدات معالجة رسوميات (GPUs) مع اتصال بالإنترنت. وهذا يجعل تدريب الذكاء الاصطناعي لا مركزيًا حقًا ويفتح الطريق أمام النماذج التي يدربها المجتمع نفسه.
DiLoCo هي تقنية لتدريب نماذج الذكاء الاصطناعي عبر الإنترنت. تعمل مجموعات وحدات معالجة الرسوميات (GPU) بشكل مستقل وتتزامن نادرًا، مما يسمح لـ Gonka بتدريب النماذج بدون مركز بيانات مركزي.

هل تريد معرفة المزيد؟

افهم اقتصاد GNK أو ابدأ في تحقيق الأرباح الآن.

اقرأ أيضاً