Qwen3-235B：Gonka网络挖掘的模型

Gonka 网络不仅仅提供 GPU 租赁服务，它还为 AI 模型提供推理服务。长期以来，唯一的模型是阿里云开发的 Qwen3-235B-A22B-Instruct，2026 年 5 月，Moonshot AI 的 Kimi K2.6 也加入了进来。让我们分析一下这个模型是什么，为什么 Gonka 选择它，以及如何通过我们的 API Gateway 试用它。

什么是Qwen3-235B

Qwen3-235B-A22B-Instruct-2507-FP8是Qwen3家族中的一个大型语言模型（LLM），由阿里云的Qwen团队开发。全名解释如下：Qwen3——系列第三代，235B——总共有2350亿参数，A22B——每个请求激活220亿活跃参数，Instruct——经过指令遵循训练的版本，2507——2025年7月发布，FP8——用于优化内存的8位量化。

关键的架构特点是MoE（专家混合）。与“密集”模型（GPT-5.4、Claude Sonnet 4.5）不同，后者每个token都通过所有参数，MoE模型每个请求只激活一部分“专家”——专门的神经网络块。对于Qwen3-235B，在2350亿参数中，每个token只激活220亿——不到10%。这在220亿参数模型的计算成本下提供了2000亿+参数模型的质量。

实际上，这意味着：该模型比其速度所预期的要智能。它处理请求的速度明显快于同等质量的密集模型，同时推理所需的VRAM少得多。这就是为什么MoE成为2025-2026年最大模型的主导架构。

Qwen3-235B的上下文窗口为131,072个token（约100,000字）——足以在一个请求中分析整本书、代码库或长篇法律文件。该模型支持119种语言，包括俄语、英语、中文、阿拉伯语、印地语等数十种语言——使其成为市场上最多种语言的模型之一。

特点和基准测试

Qwen3-235B与最大的封闭和开放模型进行竞争。以下是关键特性对比：

模型	参数	上下文	MoE	开源	价格（每1M tokens）
Qwen3-235B（通过JoinGonka）	235B（22B 活动参数）	131K	是	是（Apache 2.0）	$0.001
GPT-5.4 (OpenAI)	~1.8T（估算）	128K	是（推测）	否	$2.50
Claude Sonnet 4.5 (Anthropic)	未披露	200K	否（推测）	否	$3.00
Llama 4 Maverick (Meta)	400B（17B 活动参数）	1M	是	是（Llama License）	$0.20+（托管）
DeepSeek-R1 (DeepSeek)	671B（37B 活动参数）	128K	是	是（MIT）	$0.55

Qwen3-235B 在大多数基准测试中表现出与 GPT-5.4 和 Claude Sonnet 4.5 相当的质量水平，而通过 JoinGonka Gateway 的成本比 GPT-5.4 低 2,500 倍。这得益于两个因素：MoE 架构降低了计算成本，去中心化 Gonka 网络消除了数据中心的利润。

在 MMLU-Pro、HumanEval、MATH-500 和 GSM8K 基准测试中，该模型位列开源模型前三名，仅在数学推理任务方面略逊于 DeepSeek-R1。在代码生成、翻译和指令遵循任务中，Qwen3-235B 稳定地超越 Llama 4 Maverick，并与 Claude Sonnet 4.5 相当。

Gonka 如何使用 Qwen3-235B

Qwen3-235B 模型在Gonka 网络中通过适应推理的DiLoCo 协议分布式运行。完整 FP8 格式的模型需要大约 640 GB 显存（VRAM），这无法在单个 GPU 上容纳——即使是 H100 80GB 或 H200 141GB 也不够。因此，模型在多个 MLNode 之间按层划分（张量并行 + 流水线并行）。

在实践中，Qwen3-235B 在由 8-16 个 GPU 节点组成的集群上运行，每个节点至少有 40GB VRAM。传输代理将请求路由到所需的集群，每个节点上的 vLLM 处理模型的相应片段，结果聚合并返回给用户。整个过程只需数百毫秒——用户不会感觉到他们的请求是由全球不同地点的十几个 GPU 处理的。

一个重要的技术细节：Gonka 使用 vLLM 作为服务引擎。vLLM 是一个开源项目，通过 PagedAttention（一种优化视频内存使用的算法，用于并行处理多个请求）提供高性能的文本生成。这使得网络能够服务数千名同时在线的用户而不会降低质量。

该模型支持原生工具调用——直接从模型响应中调用函数和工具。此功能已通过 PR #767 添加到 Gonka 中，阈值为 0.958，用于检测工具调用。这意味着开发人员可以构建 AI 代理，通过对 Qwen3-235B 的单一请求与外部 API、数据库和工具进行交互。

当前的 Gonka 网络拥有超过 4,000 个 GPU（H100、H200、A100、RTX 4090 等），由 120 多个 MLNode 组成。这是世界上最大的分布式 AI 推理 GPU 网络之一——所有这些能力都用于服务 Qwen3-235B。

如何试用 Qwen3-235B

试用 Qwen3-235B 最简单的方法是通过JoinGonka API Gateway。Gateway 提供了兼容 OpenAI 的 API，这意味着：任何为 OpenAI 编写的代码，只需替换 URL 和 API 密钥，即可与 Qwen3-235B 兼容。

请求示例：

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "解释MoE架构"}]
  }'

成本：每100万个token $0.001——比GPT-5.4（$2.50/1M）便宜2500倍，比Claude Sonnet 4.5（$3.00/1M）便宜3000倍。注册后，您将获得免费的1000万个token用于测试。

Gateway 兼容流行的开发工具：快速入门描述了通过 Python、Node.js 和 curl 进行连接。还支持 IDE 集成——Cursor、Continue、Cline、Aider 和 Claude Code——以及 AI 代理框架：LangChain、n8n、LibreChat、Open WebUI。

快速入门：

在gate.joingonka.ai注册（连接钱包或创建新钱包）
在Dashboard中获取API密钥
将您代码中的api.openai.com替换为gate.joingonka.ai/api
使用模型qwen3-235b-a22b

通过JoinGonka使用Qwen3-235B，您将以爱好项目的价格获得企业级的AI服务。

Qwen3-235B-A22B是阿里云的MoE模型，拥有2350亿参数，Gonka网络用它进行去中心化AI推理。得益于MoE架构，它在提供GPT-5.4级别质量的同时，成本降低了2500倍。通过JoinGonka Gateway，该模型通过OpenAI兼容的API提供，每100万个token仅需$0.001。

想了解更多？

探索其他章节或立即开始赚取 GNK。

试用 Qwen3-235B →