技术

DiLoCo: Gonka 中的分布式模型训练

像 GPT 或 Qwen 这样的大型语言模型是在由超高速通道连接的巨型 GPU 集群上训练的。DiLoCo(分布式本地计算)改变了游戏规则——它允许通过普通互联网训练此类模型,而无需单个数据中心。

为什么需要分布式训练

现代 AI 模型包含数千亿个参数。训练这种模型需要数百个 GPU 同步工作。传统方法是将所有 GPU 集中在一个数据中心并通过 InfiniBand 连接。这成本高昂,限制了规模,并创建了单点故障。DiLoCo 允许将训练分布式到世界各地的集群中。

DiLoCo 如何工作

每个 GPU 集群(例如,8xH100)使用 AdamW 优化器在本地训练模型。大约每 1,000 步,集群通过一个全局优化器(Nesterov momentum)相互同步。同步需要最小的带宽——普通的互联网通道就足够了。这与 GPU 在每一步都交换数据的经典方法截然不同。

这对 Gonka 网络意味着什么

多亏了 DiLoCo,Gonka 可以使用散布在世界各地的宿主 GPU 训练具有 30-50 亿个参数的模型。无需单一数据中心——只需 8 个 GPU 的集群,并连接互联网。这使得 AI 训练真正去中心化,并为社区自己训练的模型开辟了道路。
DiLoCo 是一种通过互联网训练 AI 模型的技术。GPU 集群独立工作,很少同步,这使得 Gonka 能够在没有集中数据中心的情况下训练模型。

想了解更多?

了解 GNK 经济或立即开始赚取收益。

另请阅读