প্রযুক্তি

DiLoCo: গণকা-তে মডেলের বিতরণকৃত প্রশিক্ষণ

GPT বা Qwen এর মতো বড় ভাষার মডেলগুলি অত্যন্ত দ্রুত চ্যানেলের সাথে সংযুক্ত বিশাল GPU ক্লাস্টারে প্রশিক্ষিত হয়। DiLoCo (Distributed Local Computation) খেলার নিয়ম বদলে দেয় — এটি একক ডেটা সেন্টার ছাড়াই সাধারণ ইন্টারনেটের মাধ্যমে এই ধরনের মডেলগুলিকে প্রশিক্ষণ দিতে সাহায্য করে।

কেন বিতরণকৃত প্রশিক্ষণ প্রয়োজন

আধুনিক এআই মডেলগুলিতে শত শত বিলিয়ন প্যারামিটার থাকে। এই ধরনের মডেলকে প্রশিক্ষণ দিতে শত শত GPU-এর প্রয়োজন হয়, যা সিঙ্ক্রোনাসভাবে কাজ করে। ঐতিহ্যবাহী পদ্ধতি হল সমস্ত GPU-কে একটি ডেটা সেন্টারে সংগ্রহ করা এবং InfiniBand এর মাধ্যমে সংযুক্ত করা। এটি ব্যয়বহুল, স্কেলকে সীমিত করে এবং একটি একক ব্যর্থতার বিন্দু তৈরি করে। DiLoCo বিশ্বজুড়ে বিভিন্ন স্থানে ক্লাস্টারে প্রশিক্ষণ বিতরণ করতে সক্ষম করে।

কীভাবে DiLoCo কাজ করে

প্রত্যেকটি GPU ক্লাস্টার (যেমন 8xH100) AdamW অপ্টিমাইজার ব্যবহার করে মডেলকে স্থানীয়ভাবে প্রশিক্ষণ দেয়। প্রায় প্রতি ~1,000 পদক্ষেপে ক্লাস্টারগুলি একটি গ্লোবাল অপ্টিমাইজার (Nesterov momentum) এর মাধ্যমে একে অপরের সাথে সিঙ্ক্রোনাইজ হয়। সিঙ্ক্রোনাইজেশনের জন্য ন্যূনতম ব্যান্ডউইথ প্রয়োজন — সাধারণ একটি ইন্টারনেট চ্যানেলই যথেষ্ট। এটি ক্লাসিক্যাল পদ্ধতির থেকে মৌলিকভাবে আলাদা, যেখানে GPU গুলি প্রতিটি ধাপে ডেটা বিনিময় করে।

এটি গণকা নেটওয়ার্ককে কী দেয়

DiLoCo এর কারণে Gonka বিশ্বজুড়ে ছড়িয়ে থাকা হোস্টের GPU ব্যবহার করে 30-50 বিলিয়ন প্যারামিটারের মডেল প্রশিক্ষণ করতে পারে। একক ডেটা সেন্টার প্রয়োজন নেই — ইন্টারনেট সংযোগ সহ 8টি GPU এর ক্লাস্টারগুলিই যথেষ্ট। এটি AI প্রশিক্ষণকে সত্যিকার অর্থে বিকেন্দ্রীকরণ করে এবং কমিউনিটি নিজেই প্রশিক্ষণপ্রাপ্ত মডেলগুলির পথ খুলে দেয়।
DiLoCo — ইন্টারনেটের মাধ্যমে AI মডেল প্রশিক্ষণের প্রযুক্তি। GPU ক্লাস্টারগুলি স্বাধীনভাবে কাজ করে এবং খুব কমই সিঙ্ক্রোনাইজ হয়, যা গোনকাকে কেন্দ্রীয় ডেটা সেন্টার ছাড়াই মডেল প্রশিক্ষণ দিতে দেয়।

আরও জানতে চান?

GNK অর্থনীতি বুঝুন বা এখনই উপার্জন শুরু করুন।

এছাড়াও পড়ুন