Qwen3-235B: model, który jest wydobywany przez Gonka

Sieć Gonka nie tylko wynajmuje GPU — obsługuje modele AI do wnioskowania. Przez długi czas był to jedyny model Qwen3-235B-A22B-Instruct, opracowany przez Alibaba Cloud, a w maju 2026 roku dołączył do niego Kimi K2.6 od Moonshot AI. Zastanówmy się, czym jest ten model, dlaczego Gonka wybrała właśnie go i jak wypróbować go za pośrednictwem naszego API Gateway.

Co to jest Qwen3-235B

Qwen3-235B-A22B-Instruct-2507-FP8 — to duży model językowy (LLM) z rodziny Qwen3, opracowany przez zespół Qwen w Alibaba Cloud. Pełna nazwa rozwija się następująco: Qwen3 — trzecia generacja serii, 235B — 235 miliardów parametrów w sumie, A22B — 22 miliardy aktywnych parametrów na każde zapytanie, Instruct — wersja przeszkolona do wykonywania instrukcji, 2507 — wydanie z lipca 2025, FP8 — 8-bitowa kwantyzacja dla optymalizacji pamięci.

Kluczową cechą architektoniczną jest MoE (Mixture of Experts). W przeciwieństwie do modeli „gęstych” (GPT-5.4, Claude Sonnet 4.5), gdzie każdy token przechodzi przez wszystkie parametry, model MoE aktywuje na każde zapytanie tylko podzbiór „ekspertów” — wyspecjalizowanych bloków sieci neuronowej. W przypadku Qwen3-235B z 235 miliardów parametrów, na każdy token aktywuje się tylko 22 miliardy — mniej niż 10%. Daje to jakość na poziomie modeli z ponad 200 miliardami parametrów przy kosztach obliczeniowych modelu o 22 miliardach.

Praktycznie oznacza to: model jest inteligentniejszy, niż można by oczekiwać od jego szybkości. Przetwarza zapytania znacznie szybciej niż modele gęste o porównywalnej jakości, jednocześnie wymagając wielokrotnie mniej VRAM na wnioskowanie. Dlatego MoE stało się dominującą architekturą dla największych modeli w latach 2025-2026.

Okno kontekstowe Qwen3-235B wynosi 131 072 tokenów (~100 000 słów) — to wystarczająco dużo do analizy całych książek, baz kodu lub długich dokumentów prawnych w jednym zapytaniu. Model obsługuje 119 języków, w tym rosyjski, angielski, chiński, arabski, hindi i dziesiątki innych — co czyni go jednym z najbardziej wielojęzycznych modeli na rynku.

Charakterystyka i benchmarki

Qwen3-235B konkuruje z największymi zamkniętymi i otwartymi modelami. Oto porównanie kluczowych cech:

Model	Parametry	Kontekst	MoE	Open Source	Cena (za 1M tokenów)
Qwen3-235B (przez JoinGonka)	235B (22B aktywnych)	131K	Tak	Tak (Apache 2.0)	$0.001
GPT-5.4 (OpenAI)	~1.8T (ocena)	128K	Tak (przypuszczalnie)	Nie	$2.50
Claude Sonnet 4.5 (Anthropic)	Nie ujawniono	200K	Nie (przypuszczalnie)	Nie	$3.00
Llama 4 Maverick (Meta)	400B (17B aktywnych)	1M	Tak	Tak (Llama License)	$0.20+ (hosting)
DeepSeek-R1 (DeepSeek)	671B (37B aktywnych)	128K	Tak	Tak (MIT)	$0.55

Qwen3-235B demonstruje poziom jakości porównywalny z GPT-5.4 i Claude Sonnet 4.5 w większości testów porównawczych, a jednocześnie jego koszt za pośrednictwem JoinGonka Gateway jest 2 500 razy niższy niż GPT-5.4. Jest to możliwe dzięki dwóm czynnikom: architektura MoE zmniejsza koszty obliczeniowe, a zdecentralizowana sieć Gonka eliminuje marże centrów danych.

Na benchmarkach MMLU-Pro, HumanEval, MATH-500 i GSM8K model plasuje się w pierwszej trójce najlepszych otwartych modeli, ustępując jedynie DeepSeek-R1 w zadaniach rozumowania matematycznego (reasoning). W zadaniach generowania kodu, tłumaczenia i wykonywania instrukcji, Qwen3-235B stabilnie wyprzedza Llama 4 Maverick i jest porównywalny z Claude Sonnet 4.5.

Jak Gonka wykorzystuje Qwen3-235B

Model Qwen3-235B działa w sieci Gonka w sposób rozproszony — za pomocą protokołu DiLoCo, dostosowanego do wnioskowania. Pełny model w formacie FP8 wymaga około 640 GB pamięci wideo (VRAM), co jest niemożliwe do zmieszczenia na jednym GPU — nawet H100 80GB lub H200 141GB nie wystarczy. Dlatego model jest dzielony warstwami (równoległość tensorowa + równoległość potokowa) pomiędzy kilka węzłów ML.

W praktyce Qwen3-235B działa na klastrze 8-16 węzłów GPU, każdy z minimum 40 GB VRAM. Transfer Agents kierują zapytanie do odpowiedniego klastra, vLLM na każdym węźle przetwarza swój fragment modelu, wyniki są agregowane i zwracane użytkownikowi. Cały proces trwa setki milisekund — użytkownik nie odczuwa, że jego zapytanie zostało przetworzone przez dziesiątki GPU w różnych miejscach na świecie.

Ważna szczegół techniczny: Gonka używa vLLM jako silnika do obsługi. vLLM to projekt typu open source, który zapewnia wysokowydajne generowanie tekstu za pomocą PagedAttention — algorytmu optymalizującego wykorzystanie pamięci wideo podczas równoległego przetwarzania wielu zapytań. Pozwala to sieci obsługiwać tysiące jednoczesnych użytkowników bez pogorszenia jakości.

Model obsługuje natywne wywoływanie narzędzi — wywoływanie funkcji i narzędzi bezpośrednio z odpowiedzi modelu. Ta funkcja została dodana do Gonka za pośrednictwem PR #767 z progiem 0.958 do wykrywania wywołań narzędzi. Oznacza to, że programiści mogą tworzyć agentów AI, którzy wchodzą w interakcje z zewnętrznymi API, bazami danych i narzędziami — wszystko za pośrednictwem jednego zapytania do Qwen3-235B.

Obecna sieć Gonka liczy ponad 4 000 GPU (H100, H200, A100, RTX 4090 i inne), połączonych w ponad 120 węzłów ML. Jest to jedna z największych rozproszonych sieci GPU do wnioskowania AI na świecie — i cała ta moc jest skierowana na obsługę Qwen3-235B.

Jak wypróbować Qwen3-235B

Najprostszym sposobem na wypróbowanie Qwen3-235B jest JoinGonka API Gateway. Gateway udostępnia API kompatybilne z OpenAI, co oznacza, że każdy kod napisany dla OpenAI działa z Qwen3-235B bez zmian — wystarczy zmienić URL i klucz API.

Przykład zapytania:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "Objaśnij architekturę MoE"}]
  }'

Koszt: 0.001 $ za 1 milion tokenów — to 2500 razy taniej niż GPT-5.4 (2.50 $/1M) i 3000 razy taniej niż Claude Sonnet 4.5 (3.00 $/1M). Po rejestracji otrzymujesz 10 milionów darmowych tokenów do testów.

Gateway jest kompatybilny z popularnymi narzędziami programistycznymi: Szybki Start opisuje połączenie przez Python, Node.js i curl. Obsługiwane są również integracje z IDE — Cursor, Continue, Cline, Aider i Claude Code — oraz frameworki dla agentów AI: LangChain, n8n, LibreChat, Open WebUI.

Aby szybko rozpocząć:

Zarejestruj się na gate.joingonka.ai (podłącz portfel lub utwórz nowy)
Uzyskaj klucz API w Panelu Sterowania
Zastąp api.openai.com na gate.joingonka.ai/api w swoim kodzie
Użyj modelu qwen3-235b-a22b

Qwen3-235B przez JoinGonka — to poziom AI na poziomie korporacyjnym w cenie projektu hobbystycznego.

Qwen3-235B-A22B to model MoE z 235 miliardami parametrów od Alibaba Cloud, którego sieć Gonka używa do zdecentralizowanego wnioskowania AI. Dzięki architekturze MoE, zapewnia jakość na poziomie GPT-5.4 przy 2 500 razy niższym koszcie. Poprzez JoinGonka Gateway model jest dostępny za pośrednictwem API zgodnego z OpenAI za 0,001 $/1M tokenów.

← Wybór GPU dla Gonka: rekomendacje sprzętowe Kimi K2.6: drugi model sieci Gonka →

Chcesz wiedzieć więcej?

Zapoznaj się z innymi sekcjami lub zacznij zarabiać GNK już teraz.

Wypróbuj Qwen3-235B →