知识库章节 ▾
投资者
技术
分析
工具
- Cursor + Gonka AI — 便宜的 LLM 用于编码
- Claude Code + Gonka AI — 终端的 LLM
- OpenClaw + Gonka AI — 可负担的 AI 代理
- OpenCode + Gonka AI — 免费的代码 AI
- Continue.dev + Gonka AI — 适用于 VS Code/JetBrains 的 AI
- Cline + Gonka AI — VS Code 中的 AI 代理
- Aider + Gonka AI — 与 AI 结对编程
- LangChain + Gonka AI — 便宜的 AI 应用程序
- n8n + Gonka AI — 通过便宜的 AI 实现自动化
- Open WebUI + Gonka AI — 您的 ChatGPT
- LibreChat + Gonka AI — 开源 ChatGPT
- API 快速入门 — curl, Python, TypeScript
- JoinGonka Gateway - 全面概述
- 管理密钥 — Gonka 上的 SaaS
- 最便宜的AI API:2026年提供商对比
- Cursor Pro 请求限制已达 — 真实分析与廉价替代方案
- Claude Code 更便宜的替代方案 — 账单分析与切换
- Cline 烧钱 — 为什么代理会烧钱
- OpenClaw 太贵 — 为什么代理会烧钱以及如何节省
- OpenRouter 更便宜的替代方案 — 与 JoinGonka Gateway 的比较
技术
Kimi K2.6:Gonka 网络中的第二个模型
什么是 Moonshot AI 的 Kimi K2.6
Kimi K2.6 是 Kimi 系列的 大型语言模型 (LLM),由北京公司 Moonshot AI 开发。Moonshot AI 是中国领先的 AI 实验室之一,由杨植麟领导的研究团队于 2023 年创立。该公司获得了阿里巴巴、腾讯等主要投资者的资金,并被列入“中国 AI 虎”名单——这些公司正在引领亚洲 AI 发展。
Kimi 系列自 2024 年以来就已为人所知。早期版本 (K1, K1.5) 立即因其极长的上下文窗口而引人注目——单次请求最多可达 200,000 个 token,这在发布时是公开可用模型的记录。长上下文意味着在一次请求中分析一整本书、中等大小的代码库或一组法律文件的实际可能性。Kimi 发布时,这一特性是强大的竞争优势。
K2 版本于 2025 年问世,带来了根本性的架构飞跃——转向 MoE (Mixture of Experts)。同样的架构也是 Qwen3-235B 和 DeepSeek-R1 的基础——它已成为 2025-2026 年最大模型的实际标准。MoE 允许总共有数千亿个参数,但每次请求只激活其中一部分(通常是 5-10%),这在质量相当的情况下,极大地降低了推理的计算成本。
K2.6 是撰写本文时 K2 系列的最新迭代。Moonshot AI 的公开声明表明,此版本改进了模型在推理(逻辑推理)、代码生成和原生工具调用方面的能力。在 Gonka 网络中,该模型被识别为 moonshotai/Kimi-K2.6 — 这是您在 API 请求的 model 字段中需要传递的名称。
Kimi K2.6 与 Qwen3-235B 的比较
这两款模型均代表了中国主要 AI 实验室的旗舰研发成果,并且都可通过统一的 OpenAI 兼容接口 JoinGonka Gateway 获取。然而,它们各自拥有不同的长处和发展历程,因此选择它们并非“哪个更好”的问题,而是“哪个更适合特定任务”的问题。
| 特点 | Kimi K2.6 | Qwen3-235B-A22B |
|---|---|---|
| 制造商 | Moonshot AI(北京) | Alibaba Cloud(杭州) |
| 公司成立年份 | 2023 | 2009 (Alibaba Cloud) |
| 架构 | MoE | MoE(总计 235B,22B 活跃) |
| 上下文窗口 | 长上下文(Kimi 系列的标志性特点) | 131,072 个 token (约 100,000 字) |
| 优势 | 推理、长上下文、代码生成 | 通用、多语言(119 种语言)、稳定的工具调用 |
| 通过 JoinGonka 的价格 | 每百万个 token $0.001 | 每百万个 token $0.001 |
| API 标识符 | moonshotai/Kimi-K2.6 | Qwen/Qwen3-235B-A22B-Instruct-2507-FP8 |
| 工具调用 | 正在完善中(自动选择) | 原生、稳定(PR #767) |
| 在 Gonka 网络中的状态 | 通过 DevShards 启动(2026 年 5 月) | 自 2025 年 8 月起稳定 |
在推理基准测试(MATH-500、GSM8K、AIME)中,Kimi K2 系列历来在开放权重模型中表现出色,与 DeepSeek-R1 和 o1 风格的模型竞争。在代码生成任务(HumanEval、MBPP)中,两款模型表现接近。在多语言和翻译方面,Qwen3-235B 因其在 119 种语言上的训练而具有优势,而 Kimi 则更侧重于中文和英文的优化。
关于 2026 年基准测试的一个重要说明:顶级模型之间的差距在公开测试中已缩小到百分之几,这种差异通常在基准测试自身的统计误差范围内。对于实际工作而言,重要的是任务的性质,而不是“谁在 MMLU 中高出 2%”:您传递给模型的上下文是什么,逻辑链有多复杂,是否需要长的对话历史,以及使用哪些语言。因此,上表并未对模型进行排名——它旨在帮助快速了解每个模型针对哪些任务类型进行了优化。
对于实际选择:如果任务需要长上下文(分析大型文档、阅读大量代码库、保持对话历史的长时间对话)或复杂的推理任务,则应从 Kimi K2.6 开始。对于通用任务、翻译、多语言工作和生产中稳定的工具调用,Qwen3-235B 目前似乎是更成熟的选择,因为它在 Gonka 网络中运行时间更长。生产中的一个好策略是在代码中同时拥有这两种模型:通过 model 参数快速切换,可以在不改变应用程序架构的情况下根据任务在它们之间切换。
DevShards:Gonka 如何启动第二个模型
直到 2026 年春季,整个 Gonka 网络都只服务一个模型——Qwen3-235B。从架构角度来看,这是一个明智的决定:通过 DiLoCo 进行的 分布式推理 要求所有网络参与者在显存中保存相同的模型,否则无法保证任何节点都能处理任何请求。FP8 格式的完整 Qwen3-235B 大约占用 640 GB VRAM,这本身就对每个 MLNode 构成了巨大的负担。
为了向多模型网络过渡,需要一种机制,它能够同时容纳多个模型,但又不要求每个主机都运行所有模型。这个机制就是 DevShards——网络的独立分片,每个分片专注于一个模型。一个分片内的节点处理相同的模型,并且网络路由器将请求路由到具有所需模型的分片。
这个想法并非凭空而来——它在 Gonka 改进提案 #800 “多模型 PoC” 中被形式化,并于 2026 年春季提交社区投票。该提案获得了网络参与者和验证者的支持,并于 2026 年 4 月至 5 月实施。Kimi K2.6 成为第一个在独立 DevShard 上启动的模型——这实际上是新方法的测试性实施。如果经验证明成功,没有任何障碍可以阻止启动第三个、第四个等等模型——每个模型都有自己的分片、自己的主机集、自己的经济和自己的路线图。
这对用户和开发者意味着什么:
- 一个 API — 多个模型。 通过 JoinGonka Gateway,无需更改端点或密钥:只需在请求体中指定不同的
model。OpenAI 兼容格式完全保留。 - 价格相同。 目前,网络中的 Kimi K2.6 与 Qwen3-235B 的价格相同——通过 Gateway 每百万 token $0.001。未来价格可能因模型而异,但在启动时采用统一定价是一个有意识的决定,旨在简化用户迁移。
- 稳定性取决于分片负载。 在早期阶段,Kimi 分片的主机数量少于主 Qwen 分片,因此在请求集中时,模型可能会暂时返回
429 too many concurrent requests。这对于新模型来说是一个正常阶段——随着兴趣的增长,主机将连接到 Kimi 分片,限制将增加。 - 工具调用 — 正在完善中。 在撰写本文时,Gonka 网络中的 Kimi K2.6 在自动工具选择 (
tool_choice: "auto") 方面存在一些小问题。Gonka 团队正在努力使其行为符合 OpenAI 标准;对于生产环境中关键的工具调用场景,建议暂时使用 Qwen3-235B。
如何通过 Gonka 试用 Kimi K2.6
最直接的途径是通过 JoinGonka API Gateway。Gateway 提供 OpenAI 兼容的 API,这意味着,与 GPT、Claude 或 Qwen 配合使用的代码,在更改请求体中的 model 字段值后,就能与 Kimi 配合使用。
通过 curl 的最小示例:
curl https://gate.joingonka.ai/v1/chat/completions \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "moonshotai/Kimi-K2.6",
"messages": [
{"role": "user", "content": "解释 MoE 和密集模型之间的区别"}
]
}'使用 Python 通过 openai 库进行相同请求:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://gate.joingonka.ai/v1",
)
response = client.chat.completions.create(
model="moonshotai/Kimi-K2.6",
messages=[{"role": "user", "content": "你好,Kimi"}],
)
print(response.choices[0].message.content)流式传输 (Server-Sent Events) — 用于交互式界面和聊天,其中您希望在生成时显示响应:
stream = client.chat.completions.create(
model="moonshotai/Kimi-K2.6",
messages=[{"role": "user", "content": "写一篇关于 MoE 的文章"}],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)Kimi K2.6 的成本与 Qwen3-235B 相同,即每 100 万 token $0.001。这比 GPT-5.4 便宜约 2,500 倍,比 Claude Sonnet 4.5 便宜约 3,000 倍。在 注册 JoinGonka Gateway 后,您将获得 1000 万个免费 token,用于测试任何网络模型——这足以进行数小时的密集工作或数万次常规请求。
与开发工具的兼容性:所有与 OpenAI API 兼容的工具都可通过 Gateway 与 Kimi 配合使用。在模型层面,只需更改 model 参数:
- Cursor:在自定义模型设置中,指定
moonshotai/Kimi-K2.6 - Claude Code:环境变量
ANTHROPIC_MODEL或标志--model - OpenClaw、Cline、Continue.dev:在 CustomChatModel 配置中更改模型名称
- LangChain、n8n:客户端初始化中的
model参数 - Open WebUI、LibreChat:将 Gonka 添加为自定义提供商后,模型会出现在下拉列表中
可用模型列表始终在您的 Gateway 实例的 GET /v1/models 端点处保持最新状态——这便于您将其动态拉取到应用程序的 UI 中,以便用户查看完整列表并自行选择模型。
发布时,/try 页面上的演示聊天仅适用于 Qwen3-235B——小部件中的多模型选择器已在路线图中。要立即试用 Kimi,请使用 Gateway API:免费的 1000 万个 token 足以进行数小时的实验。如果您收到 429 too many concurrent requests 响应——这对于新模型在 Gonka 网络早期增长阶段来说是一个正常现象。只需几秒钟后重试请求,或等待负载较低的时段。
Gonka 网络的下一步:DevShards 在 Kimi 上的成功为其他模型打开了大门。社区讨论中提到了 DeepSeek-V3/R1、Llama 4 和专业的代码模型。每个新模型都意味着一个新的分片、新的主机、为用户带来的新机会以及 GPU 提供商的新收入来源。多模型架构也具有重要的战略意义:一个绑定到单个模型的网络是根本脆弱的(新版本发布意味着迁移危机),而一个能够同时容纳多个模型的网络则能平稳且持续地发展。