Qwen3-235B: модель, яку майнить Gonka

Мережа Gonka не просто здає GPU в оренду — вона обслуговує AI-моделі для inference. Довгий час це була єдина модель Qwen3-235B-A22B-Instruct, розроблена Alibaba Cloud, а в травні 2026 до неї приєдналася Kimi K2.6 від Moonshot AI. Розберемо, що це за модель, чому Gonka обрала саме її і як спробувати її через наш API Gateway.

Що таке Qwen3-235B

Qwen3-235B-A22B-Instruct-2507-FP8 — це велика мовна модель (LLM) сімейства Qwen3, розроблена командою Qwen в Alibaba Cloud. Повна назва розшифровується так: Qwen3 — третє покоління серії, 235B — 235 мільярдів параметрів всього, A22B — 22 мільярди активних параметрів на кожен запит, Instruct — версія, навчена слідувати інструкціям, 2507 — реліз липня 2025, FP8 — 8-бітна квантизація для оптимізації пам'яті.

Ключова архітектурна особливість — MoE (Mixture of Experts). На відміну від «щільних» моделей (GPT-5.4, Claude Sonnet 4.5), де кожен токен проходить через всі параметри, MoE-модель активує на кожен запит лише підмножину «експертів» — спеціалізованих блоків нейромережі. У випадку Qwen3-235B з 235 мільярдів параметрів на кожен токен активується лише 22 мільярди — менше 10%. Це дає якість рівня моделей з 200B+ параметрами при обчислювальних затратах моделі на 22B.

Практично це означає: модель розумніша, ніж можна очікувати від її швидкості. Вона обробляє запити значно швидше щільних моделей порівнянної якості, при цьому вимагаючи в рази менше VRAM на inference. Саме тому MoE стала домінуючою архітектурою для найбільших моделей 2025—2026 років.

Контекстне вікно Qwen3-235B становить 131 072 токени (~100 000 слів) — цього достатньо для аналізу цілих книг, кодових баз або довгих юридичних документів за один запит. Модель підтримує 119 мов, включаючи російську, англійську, китайську, арабську, хінді та десятки інших — що робить її однією з найбільш багатомовних моделей на ринку.

Характеристики та бенчмарки

Qwen3-235B конкурує з найбільшими закритими та відкритими моделями. Ось порівняння ключових характеристик:

Модель	Параметри	Контекст	MoE	Open Source	Ціна (за 1M токенів)
Qwen3-235B (через JoinGonka)	235B (22B активних)	131K	Так	Так (Apache 2.0)	$0.001
GPT-5.4 (OpenAI)	~1.8T (оцінка)	128K	Так (передбачається)	Ні	$2.50
Claude Sonnet 4.5 (Anthropic)	Не розкрито	200K	Ні (передбачається)	Ні	$3.00
Llama 4 Maverick (Meta)	400B (17B активних)	1M	Так	Так (Llama License)	$0.20+ (хостинг)
DeepSeek-R1 (DeepSeek)	671B (37B активних)	128K	Так	Так (MIT)	$0.55

Qwen3-235B демонструє рівень якості, порівнянний з GPT-5.4 та Claude Sonnet 4.5 на більшості бенчмарків, при цьому її вартість через JoinGonka Gateway у 2 500 разів нижча, ніж у GPT-5.4. Це можливо завдяки двом факторам: MoE-архітектура знижує обчислювальні затрати, а децентралізована мережа Gonka усуває маржу дата-центрів.

На бенчмарках MMLU-Pro, HumanEval, MATH-500 та GSM8K модель входить до трійки найкращих open-source моделей, поступаючись лише DeepSeek-R1 у задачах математичних міркувань (reasoning). У задачах генерації коду, перекладу та слідування інструкціям Qwen3-235B стабільно випереджає Llama 4 Maverick та співставна з Claude Sonnet 4.5.

Як Gonka використовує Qwen3-235B

Модель Qwen3-235B працює в мережі Gonka розподілено — через протокол DiLoCo, адаптований для inference. Повна модель у форматі FP8 вимагає близько 640 ГБ відеопам'яті (VRAM), що неможливо вмістити на одному GPU — навіть H100 80GB або H200 141GB недостатньо. Тому модель розділена по шарах (tensor parallelism + pipeline parallelism) між кількома ML-нодами.

На практиці Qwen3-235B працює на кластері з 8—16 GPU-нод, кожна з мінімум 40 ГБ VRAM. Transfer Agents маршрутизують запит до потрібного кластера, vLLM на кожній ноді обробляє свій фрагмент моделі, результати агрегуються та повертаються користувачеві. Весь процес займає сотні мілісекунд — користувач не відчуває, що його запит оброблено десятком GPU в різних точках планети.

Важлива технічна деталь: Gonka використовує vLLM як рушій для serving. vLLM — проєкт з відкритим вихідним кодом, який забезпечує високопродуктивну генерацію тексту через PagedAttention — алгоритм, що оптимізує використання відеопам'яті при паралельній обробці безлічі запитів. Це дозволяє мережі обслуговувати тисячі одночасних користувачів без деградації якості.

Модель підтримує нативний tool calling — виклик функцій та інструментів безпосередньо з відповіді моделі. Ця можливість була додана в Gonka через PR #767 з порогом 0.958 для визначення викликів інструментів. Це означає, що розробники можуть будувати AI-агентів, які взаємодіють із зовнішніми API, базами даних та інструментами — все через єдиний запит до Qwen3-235B.

Поточна мережа Gonka налічує більше 4 000 GPU (H100, H200, A100, RTX 4090 та інші), об'єднаних у 120+ ML-нод. Це одна з найбільших розподілених GPU-мереж для AI inference у світі — і вся ця потужність спрямована на обслуговування Qwen3-235B.

Як спробувати Qwen3-235B

Найпростіший спосіб спробувати Qwen3-235B — через JoinGonka API Gateway. Gateway надає OpenAI-сумісний API, що означає: будь-який код, написаний для OpenAI, працює з Qwen3-235B без змін — достатньо замінити URL та API-ключ.

Приклад запиту:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "Объясни MoE-архитектуру"}]
  }'

Вартість: $0.001 за 1 мільйон токенів — це в 2 500 разів дешевше GPT-5.4 ($2.50/1M) та в 3 000 разів дешевше Claude Sonnet 4.5 ($3.00/1M). При реєстрації ви отримуєте безкоштовні 10 мільйонів токенів для тестування.

Gateway сумісний з популярними інструментами розробки: Quick Start описує підключення через Python, Node.js та curl. Також підтримуються IDE-інтеграції — Cursor, Continue, Cline, Aider та Claude Code — та фреймворки для AI-агентів: LangChain, n8n, LibreChat, Open WebUI.

Для швидкого старту:

Зареєструйтеся на gate.joingonka.ai (підключіть гаманець або створіть новий)
Отримайте API-ключ у Dashboard
Замініть api.openai.com на gate.joingonka.ai/api у вашому коді
Використовуйте модель qwen3-235b-a22b

Qwen3-235B через JoinGonka — це enterprise-рівень AI за ціною хобі-проєкту.

Qwen3-235B-A22B — це MoE-модель з 235 мільярдами параметрів від Alibaba Cloud, яку мережа Gonka використовує для децентралізованого AI inference. Завдяки MoE-архітектурі вона забезпечує якість рівня GPT-5.4 при вартості в 2 500 разів нижче. Через JoinGonka Gateway модель доступна за OpenAI-сумісним API за $0.001/1M токенів.

← Вибір GPU для Gonka: рекомендації щодо обладнання Kimi K2.6: друга модель мережі Gonka →

Бажаєте дізнатися більше?

Вивчіть інші розділи або почніть заробляти GNK прямо зараз.

Спробувати Qwen3-235B →