เทคโนโลยี

DiLoCo: การฝึกอบรมแบบกระจายของโมเดลใน Gonka

โมเดลภาษาขนาดใหญ่ เช่น GPT หรือ Qwen ได้รับการฝึกอบรมบนคลัสเตอร์ GPU ขนาดใหญ่ที่เชื่อมต่อกันด้วยช่องสัญญาณความเร็วสูง DiLoCo (Distributed Local Computation) เปลี่ยนเกม — ช่วยให้สามารถฝึกอบรมโมเดลดังกล่าวผ่านอินเทอร์เน็ตปกติได้ โดยไม่ต้องมีศูนย์ข้อมูลเดียว

ทำไมต้องมีการฝึกอบรมแบบกระจาย

โมเดล AI สมัยใหม่มีพารามิเตอร์หลายแสนล้านตัว การฝึกอบรมโมเดลดังกล่าวต้องใช้ GPU หลายร้อยตัวที่ทำงานพร้อมกัน แนวทางดั้งเดิมคือการรวบรวม GPU ทั้งหมดในศูนย์ข้อมูลเดียวและเชื่อมต่อด้วย InfiniBand ซึ่งมีราคาแพง จำกัดขนาด และสร้างจุดบกพร่องเดียว DiLoCo ช่วยให้สามารถกระจายการฝึกอบรมไปยังคลัสเตอร์ต่างๆ ทั่วโลกได้

DiLoCo ทำงานอย่างไร

แต่ละคลัสเตอร์ GPU (เช่น 8xH100) จะฝึกโมเดลในพื้นที่โดยใช้ optimizer AdamW ประมาณทุก ~1,000 ขั้นตอน คลัสเตอร์จะซิงโครไนซ์กันผ่าน optimizer ทั่วโลก (Nesterov momentum) การซิงโครไนซ์ต้องใช้แบนด์วิดท์น้อยที่สุด — เพียงพอสำหรับช่องสัญญาณอินเทอร์เน็ตทั่วไป นี่แตกต่างอย่างสิ้นเชิงกับแนวทางคลาสสิกที่ GPU แลกเปลี่ยนข้อมูลในแต่ละขั้นตอน

สิ่งนี้ให้อะไรกับเครือข่าย Gonka

ด้วย DiLoCo Gonka สามารถฝึกโมเดลที่มีพารามิเตอร์ 30-50 พันล้านตัว โดยใช้ GPU ของโฮสต์ที่กระจายอยู่ทั่วโลก ไม่จำเป็นต้องมีศูนย์ข้อมูลเดียว — เพียงแค่คลัสเตอร์ 8 GPU ที่มีการเชื่อมต่ออินเทอร์เน็ตก็พอ ซึ่งทำให้การฝึก AI เป็นแบบกระจายศูนย์อย่างแท้จริง และเปิดทางสู่โมเดลที่ฝึกโดยชุมชนเอง
DiLoCo — เทคโนโลยีการฝึกอบรมโมเดล AI ผ่านอินเทอร์เน็ต คลัสเตอร์ GPU ทำงานอย่างอิสระและซิงโครไนซ์กันไม่บ่อยนัก ทำให้ Gonka สามารถฝึกโมเดลได้โดยไม่ต้องมีศูนย์ข้อมูลรวมศูนย์

ต้องการเรียนรู้เพิ่มเติมหรือไม่?

ทำความเข้าใจเกี่ยวกับเศรษฐกิจ GNK หรือเริ่มสร้างรายได้ตอนนี้

อ่านเพิ่มเติม