知识库章节 ▾

工具

技术

Kimi K2.6:Gonka 网络中的第二个模型

长期以来,Gonka 网络仅运行一种模型——来自阿里云的 Qwen3-235B。2026 年 5 月,情况发生了变化:通过 DevShards 机制启动了对多种模型的支持,首个加入的是来自中国公司 Moonshot AI 的 Kimi K2.6。让我们探讨这个模型是什么,它与 Qwen3-235B 有何不同,Gonka 如何在技术上实现多模型,以及如何通过我们的 API Gateway 试用新模型。

什么是 Moonshot AI 的 Kimi K2.6

Kimi K2.6 是 Kimi 系列的 大型语言模型 (LLM),由北京公司 Moonshot AI 开发。Moonshot AI 是中国领先的 AI 实验室之一,由杨植麟领导的研究团队于 2023 年创立。该公司获得了阿里巴巴、腾讯等主要投资者的资金,并被列入“中国 AI 虎”名单——这些公司正在引领亚洲 AI 发展。

Kimi 系列自 2024 年以来就已为人所知。早期版本 (K1, K1.5) 立即因其极长的上下文窗口而引人注目——单次请求最多可达 200,000 个 token,这在发布时是公开可用模型的记录。长上下文意味着在一次请求中分析一整本书、中等大小的代码库或一组法律文件的实际可能性。Kimi 发布时,这一特性是强大的竞争优势。

K2 版本于 2025 年问世,带来了根本性的架构飞跃——转向 MoE (Mixture of Experts)。同样的架构也是 Qwen3-235B 和 DeepSeek-R1 的基础——它已成为 2025-2026 年最大模型的实际标准。MoE 允许总共有数千亿个参数,但每次请求只激活其中一部分(通常是 5-10%),这在质量相当的情况下,极大地降低了推理的计算成本。

K2.6 是撰写本文时 K2 系列的最新迭代。Moonshot AI 的公开声明表明,此版本改进了模型在推理(逻辑推理)、代码生成和原生工具调用方面的能力。在 Gonka 网络中,该模型被识别为 moonshotai/Kimi-K2.6 — 这是您在 API 请求的 model 字段中需要传递的名称。

Kimi K2.6 与 Qwen3-235B 的比较

这两款模型均代表了中国主要 AI 实验室的旗舰研发成果,并且都可通过统一的 OpenAI 兼容接口 JoinGonka Gateway 获取。然而,它们各自拥有不同的长处和发展历程,因此选择它们并非“哪个更好”的问题,而是“哪个更适合特定任务”的问题。

特点Kimi K2.6Qwen3-235B-A22B
制造商Moonshot AI(北京)Alibaba Cloud(杭州)
公司成立年份20232009 (Alibaba Cloud)
架构MoEMoE(总计 235B,22B 活跃)
上下文窗口长上下文(Kimi 系列的标志性特点)131,072 个 token (约 100,000 字)
优势推理、长上下文、代码生成通用、多语言(119 种语言)、稳定的工具调用
通过 JoinGonka 的价格每百万个 token $0.001每百万个 token $0.001
API 标识符moonshotai/Kimi-K2.6Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
工具调用正在完善中(自动选择)原生、稳定(PR #767)
在 Gonka 网络中的状态通过 DevShards 启动(2026 年 5 月)自 2025 年 8 月起稳定

在推理基准测试(MATH-500、GSM8K、AIME)中,Kimi K2 系列历来在开放权重模型中表现出色,与 DeepSeek-R1 和 o1 风格的模型竞争。在代码生成任务(HumanEval、MBPP)中,两款模型表现接近。在多语言和翻译方面,Qwen3-235B 因其在 119 种语言上的训练而具有优势,而 Kimi 则更侧重于中文和英文的优化。

关于 2026 年基准测试的一个重要说明:顶级模型之间的差距在公开测试中已缩小到百分之几,这种差异通常在基准测试自身的统计误差范围内。对于实际工作而言,重要的是任务的性质,而不是“谁在 MMLU 中高出 2%”:您传递给模型的上下文是什么,逻辑链有多复杂,是否需要长的对话历史,以及使用哪些语言。因此,上表并未对模型进行排名——它旨在帮助快速了解每个模型针对哪些任务类型进行了优化。

对于实际选择:如果任务需要长上下文(分析大型文档、阅读大量代码库、保持对话历史的长时间对话)或复杂的推理任务,则应从 Kimi K2.6 开始。对于通用任务、翻译、多语言工作和生产中稳定的工具调用,Qwen3-235B 目前似乎是更成熟的选择,因为它在 Gonka 网络中运行时间更长。生产中的一个好策略是在代码中同时拥有这两种模型:通过 model 参数快速切换,可以在不改变应用程序架构的情况下根据任务在它们之间切换。

DevShards:Gonka 如何启动第二个模型

直到 2026 年春季,整个 Gonka 网络都只服务一个模型——Qwen3-235B。从架构角度来看,这是一个明智的决定:通过 DiLoCo 进行的 分布式推理 要求所有网络参与者在显存中保存相同的模型,否则无法保证任何节点都能处理任何请求。FP8 格式的完整 Qwen3-235B 大约占用 640 GB VRAM,这本身就对每个 MLNode 构成了巨大的负担。

为了向多模型网络过渡,需要一种机制,它能够同时容纳多个模型,但又不要求每个主机都运行所有模型。这个机制就是 DevShards——网络的独立分片,每个分片专注于一个模型。一个分片内的节点处理相同的模型,并且网络路由器将请求路由到具有所需模型的分片。

这个想法并非凭空而来——它在 Gonka 改进提案 #800 “多模型 PoC” 中被形式化,并于 2026 年春季提交社区投票。该提案获得了网络参与者和验证者的支持,并于 2026 年 4 月至 5 月实施。Kimi K2.6 成为第一个在独立 DevShard 上启动的模型——这实际上是新方法的测试性实施。如果经验证明成功,没有任何障碍可以阻止启动第三个、第四个等等模型——每个模型都有自己的分片、自己的主机集、自己的经济和自己的路线图。

这对用户和开发者意味着什么:

  • 一个 API — 多个模型。 通过 JoinGonka Gateway,无需更改端点或密钥:只需在请求体中指定不同的 model。OpenAI 兼容格式完全保留。
  • 价格相同。 目前,网络中的 Kimi K2.6 与 Qwen3-235B 的价格相同——通过 Gateway 每百万 token $0.001。未来价格可能因模型而异,但在启动时采用统一定价是一个有意识的决定,旨在简化用户迁移。
  • 稳定性取决于分片负载。 在早期阶段,Kimi 分片的主机数量少于主 Qwen 分片,因此在请求集中时,模型可能会暂时返回 429 too many concurrent requests。这对于新模型来说是一个正常阶段——随着兴趣的增长,主机将连接到 Kimi 分片,限制将增加。
  • 工具调用 — 正在完善中。 在撰写本文时,Gonka 网络中的 Kimi K2.6 在自动工具选择 (tool_choice: "auto") 方面存在一些小问题。Gonka 团队正在努力使其行为符合 OpenAI 标准;对于生产环境中关键的工具调用场景,建议暂时使用 Qwen3-235B。

如何通过 Gonka 试用 Kimi K2.6

最直接的途径是通过 JoinGonka API Gateway。Gateway 提供 OpenAI 兼容的 API,这意味着,与 GPT、Claude 或 Qwen 配合使用的代码,在更改请求体中的 model 字段值后,就能与 Kimi 配合使用。

通过 curl 的最小示例:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2.6",
    "messages": [
      {"role": "user", "content": "解释 MoE 和密集模型之间的区别"}
    ]
  }'

使用 Python 通过 openai 库进行相同请求:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "你好,Kimi"}],
)
print(response.choices[0].message.content)

流式传输 (Server-Sent Events) — 用于交互式界面和聊天,其中您希望在生成时显示响应:

stream = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "写一篇关于 MoE 的文章"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Kimi K2.6 的成本与 Qwen3-235B 相同,即每 100 万 token $0.001。这比 GPT-5.4 便宜约 2,500 倍,比 Claude Sonnet 4.5 便宜约 3,000 倍。在 注册 JoinGonka Gateway 后,您将获得 1000 万个免费 token,用于测试任何网络模型——这足以进行数小时的密集工作或数万次常规请求。

与开发工具的兼容性:所有与 OpenAI API 兼容的工具都可通过 Gateway 与 Kimi 配合使用。在模型层面,只需更改 model 参数:

可用模型列表始终在您的 Gateway 实例的 GET /v1/models 端点处保持最新状态——这便于您将其动态拉取到应用程序的 UI 中,以便用户查看完整列表并自行选择模型。

发布时,/try 页面上的演示聊天仅适用于 Qwen3-235B——小部件中的多模型选择器已在路线图中。要立即试用 Kimi,请使用 Gateway API:免费的 1000 万个 token 足以进行数小时的实验。如果您收到 429 too many concurrent requests 响应——这对于新模型在 Gonka 网络早期增长阶段来说是一个正常现象。只需几秒钟后重试请求,或等待负载较低的时段。

Gonka 网络的下一步:DevShards 在 Kimi 上的成功为其他模型打开了大门。社区讨论中提到了 DeepSeek-V3/R1、Llama 4 和专业的代码模型。每个新模型都意味着一个新的分片、新的主机、为用户带来的新机会以及 GPU 提供商的新收入来源。多模型架构也具有重要的战略意义:一个绑定到单个模型的网络是根本脆弱的(新版本发布意味着迁移危机),而一个能够同时容纳多个模型的网络则能平稳且持续地发展。

Kimi K2.6 是 Moonshot AI 的 MoE 模型,具有长上下文和强大的推理能力。2026 年 5 月,它成为 Gonka 网络中继 Qwen3-235B 之后的第二个模型,通过 DevShards 机制(每个模型一个独立分片)启动。通过 JoinGonka Gateway,它以与 Qwen 相同的价格 $0.001 每 100 万 token 提供 OpenAI 兼容的 API。API 模型标识符为 moonshotai/Kimi-K2.6。在早期阶段,请求集中时可能会暂时出现 429 错误;工具调用功能正在完善中。

想了解更多?

探索其他章节或立即开始赚取 GNK。

通过 Gateway 试用 Kimi K2.6 →