प्रौद्योगिकी

DiLoCo: गोंका में मॉडल का वितरित प्रशिक्षण

GPT या Qwen जैसे बड़े भाषा मॉडल विशाल GPU क्लस्टरों पर प्रशिक्षित होते हैं, जो अल्ट्रा-तेज चैनलों से जुड़े होते हैं। DiLoCo (Distributed Local Computation) खेल के नियमों को बदल देता है - यह ऐसे मॉडलों को सामान्य इंटरनेट के माध्यम से, एक भी डेटा सेंटर के बिना प्रशिक्षित करने की अनुमति देता है।

वितरित प्रशिक्षण की आवश्यकता क्यों है

आधुनिक AI मॉडलों में अरबों पैरामीटर होते हैं। ऐसे मॉडल को प्रशिक्षित करने के लिए सैकड़ों GPU की आवश्यकता होती है, जो सिंक्रनाइज़ तरीके से काम करते हैं। पारंपरिक दृष्टिकोण सभी GPU को एक डेटा सेंटर में इकट्ठा करना और उन्हें InfiniBand से जोड़ना है। यह महंगा है, पैमाने को सीमित करता है और एक बिंदु की विफलता पैदा करता है। DiLoCo प्रशिक्षण को दुनिया के विभिन्न हिस्सों में क्लस्टरों में वितरित करने की अनुमति देता है।

DiLoCo कैसे काम करता है

प्रत्येक GPU क्लस्टर (उदाहरण के लिए, 8xH100) AdamW ऑप्टिमाइज़र का उपयोग करके मॉडल को स्थानीय रूप से प्रशिक्षित करता है। लगभग हर ~1,000 चरणों में, क्लस्टर एक वैश्विक ऑप्टिमाइज़र (Nesterov momentum) के माध्यम से एक दूसरे के साथ सिंक्रनाइज़ होते हैं। सिंक्रनाइज़ेशन के लिए न्यूनतम बैंडविड्थ की आवश्यकता होती है - एक सामान्य इंटरनेट चैनल पर्याप्त है। यह पारंपरिक दृष्टिकोण से मौलिक रूप से अलग है, जहां GPU प्रत्येक चरण में डेटा का आदान-प्रदान करते हैं।

यह गोंका नेटवर्क को क्या देता है

DiLoCo की बदौलत Gonka, दुनिया भर में बिखरे हुए होस्ट के GPU का उपयोग करके 30-50 बिलियन पैरामीटर वाले मॉडल को प्रशिक्षित कर सकता है। एक भी डेटा सेंटर की आवश्यकता नहीं है — इंटरनेट कनेक्शन वाले 8 GPU के क्लस्टर पर्याप्त हैं। यह AI प्रशिक्षण को वास्तव में विकेंद्रीकृत बनाता है और समुदाय द्वारा स्वयं प्रशिक्षित मॉडलों के लिए मार्ग प्रशस्त करता है।
DiLoCo - इंटरनेट के माध्यम से AI मॉडल को प्रशिक्षित करने की तकनीक। GPU क्लस्टर स्वतंत्र रूप से काम करते हैं और शायद ही कभी सिंक्रनाइज़ होते हैं, जिससे Gonka केंद्रीय डेटा सेंटर के बिना मॉडल को प्रशिक्षित कर सकता है।

और जानना चाहते हैं?

GNK अर्थव्यवस्था को समझें या अभी कमाना शुरू करें।

यह भी पढ़ें