Qwen3-235B: модель, которую майнит Gonka

Сеть Gonka не просто сдаёт GPU в аренду — она обслуживает AI-модели для inference. Долгое время это была единственная модель Qwen3-235B-A22B-Instruct, разработанная Alibaba Cloud, а в мае 2026 к ней присоединилась Kimi K2.6 от Moonshot AI. Разберём, что это за модель, почему Gonka выбрала именно её и как попробовать её через наш API Gateway.

Что такое Qwen3-235B

Qwen3-235B-A22B-Instruct-2507-FP8 — это большая языковая модель (LLM) семейства Qwen3, разработанная командой Qwen в Alibaba Cloud. Полное название расшифровывается так: Qwen3 — третье поколение серии, 235B — 235 миллиардов параметров всего, A22B — 22 миллиарда активных параметров на каждый запрос, Instruct — версия, обученная следовать инструкциям, 2507 — релиз июля 2025, FP8 — 8-битная квантизация для оптимизации памяти.

Ключевая архитектурная особенность — MoE (Mixture of Experts). В отличие от «плотных» моделей (GPT-5.4, Claude Sonnet 4.5), где каждый токен проходит через все параметры, MoE-модель активирует на каждый запрос только подмножество «экспертов» — специализированных блоков нейросети. В случае Qwen3-235B из 235 миллиардов параметров на каждый токен активируется лишь 22 миллиарда — менее 10%. Это даёт качество уровня моделей с 200B+ параметрами при вычислительных затратах модели на 22B.

Практически это означает: модель умнее, чем можно ожидать от её скорости. Она обрабатывает запросы значительно быстрее плотных моделей сопоставимого качества, при этом требуя в разы меньше VRAM на inference. Именно поэтому MoE стала доминирующей архитектурой для крупнейших моделей 2025—2026 годов.

Контекстное окно Qwen3-235B составляет 131 072 токена (~100 000 слов) — этого достаточно для анализа целых книг, кодовых баз или длинных юридических документов за один запрос. Модель поддерживает 119 языков, включая русский, английский, китайский, арабский, хинди и десятки других — что делает её одной из наиболее мультиязычных моделей на рынке.

Характеристики и бенчмарки

Qwen3-235B конкурирует с крупнейшими закрытыми и открытыми моделями. Вот сравнение ключевых характеристик:

Модель	Параметры	Контекст	MoE	Open Source	Цена (за 1M токенов)
Qwen3-235B (через JoinGonka)	235B (22B активных)	131K	Да	Да (Apache 2.0)	$0.001
GPT-5.4 (OpenAI)	~1.8T (оценка)	128K	Да (предполагается)	Нет	$2.50
Claude Sonnet 4.5 (Anthropic)	Не раскрыто	200K	Нет (предполагается)	Нет	$3.00
Llama 4 Maverick (Meta)	400B (17B активных)	1M	Да	Да (Llama License)	$0.20+ (хостинг)
DeepSeek-R1 (DeepSeek)	671B (37B активных)	128K	Да	Да (MIT)	$0.55

Qwen3-235B демонстрирует уровень качества, сопоставимый с GPT-5.4 и Claude Sonnet 4.5 на большинстве бенчмарков, при этом её стоимость через JoinGonka Gateway в 2 500 раз ниже, чем у GPT-5.4. Это возможно благодаря двум факторам: MoE-архитектура снижает вычислительные затраты, а децентрализованная сеть Gonka устраняет маржу дата-центров.

На бенчмарках MMLU-Pro, HumanEval, MATH-500 и GSM8K модель входит в тройку лучших open-source моделей, уступая лишь DeepSeek-R1 в задачах математических рассуждений (reasoning). В задачах генерации кода, перевода и следования инструкциям Qwen3-235B стабильно опережает Llama 4 Maverick и сопоставима с Claude Sonnet 4.5.

Как Gonka использует Qwen3-235B

Модель Qwen3-235B работает в сети Gonka распределённо — через протокол DiLoCo, адаптированный для inference. Полная модель в формате FP8 требует около 640 ГБ видеопамяти (VRAM), что невозможно уместить на одном GPU — даже H100 80GB или H200 141GB недостаточно. Поэтому модель разделена по слоям (tensor parallelism + pipeline parallelism) между несколькими ML-нодами.

На практике Qwen3-235B работает на кластере из 8—16 GPU-нод, каждая с минимум 40 ГБ VRAM. Transfer Agents маршрутизируют запрос к нужному кластеру, vLLM на каждой ноде обрабатывает свой фрагмент модели, результаты агрегируются и возвращаются пользователю. Весь процесс занимает сотни миллисекунд — пользователь не ощущает, что его запрос обработан десятком GPU в разных точках планеты.

Важная техническая деталь: Gonka использует vLLM в качестве движка для serving. vLLM — проект с открытым исходным кодом, который обеспечивает высокопроизводительную генерацию текста через PagedAttention — алгоритм, оптимизирующий использование видеопамяти при параллельной обработке множества запросов. Это позволяет сети обслуживать тысячи одновременных пользователей без деградации качества.

Модель поддерживает нативный tool calling — вызов функций и инструментов напрямую из ответа модели. Эта возможность была добавлена в Gonka через PR #767 с порогом 0.958 для определения вызовов инструментов. Это означает, что разработчики могут строить AI-агентов, которые взаимодействуют с внешними API, базами данных и инструментами — всё через единый запрос к Qwen3-235B.

Текущая сеть Gonka насчитывает более 4 000 GPU (H100, H200, A100, RTX 4090 и другие), объединённых в 120+ ML-нод. Это одна из крупнейших распределённых GPU-сетей для AI inference в мире — и вся эта мощность направлена на обслуживание Qwen3-235B.

Как попробовать Qwen3-235B

Самый простой способ попробовать Qwen3-235B — через JoinGonka API Gateway. Gateway предоставляет OpenAI-совместимый API, что означает: любой код, написанный для OpenAI, работает с Qwen3-235B без изменений — достаточно заменить URL и API-ключ.

Пример запроса:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "Объясни MoE-архитектуру"}]
  }'

Стоимость: $0.001 за 1 миллион токенов — это в 2 500 раз дешевле GPT-5.4 ($2.50/1M) и в 3 000 раз дешевле Claude Sonnet 4.5 ($3.00/1M). При регистрации вы получаете бесплатные 10 миллионов токенов для тестирования.

Gateway совместим с популярными инструментами разработки: Quick Start описывает подключение через Python, Node.js и curl. Также поддерживаются IDE-интеграции — Cursor, Continue, Cline, Aider и Claude Code — и фреймворки для AI-агентов: LangChain, n8n, LibreChat, Open WebUI.

Для быстрого старта:

Зарегистрируйтесь на gate.joingonka.ai (подключите кошелёк или создайте новый)
Получите API-ключ в Dashboard
Замените api.openai.com на gate.joingonka.ai/api в вашем коде
Используйте модель qwen3-235b-a22b

Qwen3-235B через JoinGonka — это enterprise-уровень AI по цене хобби-проекта.

Qwen3-235B-A22B — это MoE-модель с 235 миллиардами параметров от Alibaba Cloud, которую сеть Gonka использует для децентрализованного AI inference. Благодаря MoE-архитектуре она обеспечивает качество уровня GPT-5.4 при стоимости в 2 500 раз ниже. Через JoinGonka Gateway модель доступна по OpenAI-совместимому API за $0.001/1M токенов.

← Выбор GPU для Gonka: рекомендации по железу Kimi K2.6: вторая модель сети Gonka →

Хотите узнать больше?

Изучите другие разделы или начните зарабатывать GNK прямо сейчас.

Попробовать Qwen3-235B →