Công nghệ

DiLoCo: Học tập phân tán các mô hình trong Gonka

Các mô hình ngôn ngữ lớn như GPT hoặc Qwen được đào tạo trên các cụm GPU khổng lồ được kết nối bằng các kênh siêu nhanh. DiLoCo (Distributed Local Computation) thay đổi cuộc chơi – nó cho phép đào tạo các mô hình như vậy qua internet thông thường, không cần một trung tâm dữ liệu duy nhất.

Tại sao cần học tập phân tán

Các mô hình AI hiện đại chứa hàng trăm tỷ tham số. Việc đào tạo một mô hình như vậy đòi hỏi hàng trăm GPU hoạt động đồng bộ. Cách tiếp cận truyền thống là tập hợp tất cả GPU trong một trung tâm dữ liệu và kết nối chúng bằng InfiniBand. Điều này tốn kém, giới hạn quy mô và tạo ra một điểm lỗi duy nhất. DiLoCo cho phép đào tạo phân tán trên các cụm ở các điểm khác nhau trên thế giới.

DiLoCo hoạt động như thế nào

Mỗi cụm GPU (ví dụ: 8xH100) đào tạo mô hình cục bộ bằng cách sử dụng bộ tối ưu hóa AdamW. Khoảng mỗi ~1.000 bước, các cụm đồng bộ hóa với nhau thông qua một bộ tối ưu hóa toàn cầu (Nesterov momentum). Đồng bộ hóa yêu cầu băng thông tối thiểu – một kênh internet thông thường là đủ. Điều này khác biệt đáng kể so với cách tiếp cận cổ điển, nơi các GPU trao đổi dữ liệu ở mỗi bước.

Điều này mang lại gì cho mạng Gonka

Nhờ DiLoCo, Gonka có thể đào tạo các mô hình với 30-50 tỷ tham số, sử dụng các GPU máy chủ rải rác khắp thế giới. Không cần một trung tâm dữ liệu duy nhất – chỉ cần các cụm 8 GPU có kết nối internet. Điều này làm cho việc đào tạo AI thực sự phân cấp và mở đường cho các mô hình được cộng đồng tự đào tạo.
DiLoCo là một công nghệ để đào tạo các mô hình AI qua internet. Các cụm GPU hoạt động độc lập và đồng bộ hóa hiếm khi, cho phép Gonka đào tạo các mô hình mà không cần trung tâm dữ liệu tập trung.

Bạn muốn tìm hiểu thêm?

Hiểu rõ hơn về nền kinh tế GNK hoặc bắt đầu kiếm tiền ngay bây giờ.

Đọc thêm