Qwen3-235B: Das Modell, das Gonka mined

Das Gonka-Netzwerk vermietet nicht nur GPUs, sondern bedient auch KI-Modelle für Inferenzen. Lange Zeit war das einzige Modell Qwen3-235B-A22B-Instruct, entwickelt von Alibaba Cloud. Im Mai 2026 kam Kimi K2.6 von Moonshot AI hinzu. Wir werden untersuchen, was dieses Modell ist, warum Gonka es ausgewählt hat und wie man es über unser API Gateway ausprobieren kann.

Was ist Qwen3-235B

Qwen3-235B-A22B-Instruct-2507-FP8 ist ein großes Sprachmodell (LLM) der Qwen3-Familie, entwickelt vom Qwen-Team bei Alibaba Cloud. Der vollständige Name bedeutet: Qwen3 – die dritte Generation der Serie, 235B – insgesamt 235 Milliarden Parameter, A22B – 22 Milliarden aktive Parameter pro Anfrage, Instruct – eine instruktionsbasierte Version, 2507 – Release Juli 2025, FP8 – 8-Bit-Quantisierung zur Speicheroptimierung.

Ein wichtiges architektonisches Merkmal ist MoE (Mixture of Experts). Im Gegensatz zu „dichten“ Modellen (GPT-5.4, Claude Sonnet 4.5), bei denen jeder Token alle Parameter durchläuft, aktiviert ein MoE-Modell für jede Anfrage nur eine Teilmenge von „Experten“ – spezialisierten neuronalen Netzwerkblöcken. Im Falle von Qwen3-235B werden von 235 Milliarden Parametern nur 22 Milliarden pro Token aktiviert – weniger als 10%. Dies ermöglicht die Qualität eines Modells mit über 200B Parametern bei den Rechenkosten eines Modells mit 22B.

Praktisch bedeutet dies: Das Modell ist intelligenter, als man es bei seiner Geschwindigkeit erwarten würde. Es verarbeitet Anfragen deutlich schneller als dichte Modelle vergleichbarer Qualität und benötigt dabei ein Vielfaches weniger VRAM für die Inferenz. Deshalb ist MoE die dominierende Architektur für die größten Modelle der Jahre 2025–2026 geworden.

Das Kontextfenster von Qwen3-235B beträgt 131.072 Tokens (~100.000 Wörter) – das reicht aus, um ganze Bücher, Codebasen oder lange juristische Dokumente in einer einzigen Anfrage zu analysieren. Das Modell unterstützt 119 Sprachen, darunter Russisch, Englisch, Chinesisch, Arabisch, Hindi und Dutzende andere – was es zu einem der mehrsprachigsten Modelle auf dem Markt macht.

Eigenschaften und Benchmarks

Qwen3-235B konkurriert mit den größten geschlossenen und offenen Modellen. Hier ist ein Vergleich der wichtigsten Eigenschaften:

Modell	Parameter	Kontext	MoE	Open Source	Preis (pro 1M Tokens)
Qwen3-235B (über JoinGonka)	235B (22B aktiv)	131K	Ja	Ja (Apache 2.0)	$0.001
GPT-5.4 (OpenAI)	~1.8T (Schätzung)	128K	Ja (vermutet)	Nein	$2.50
Claude Sonnet 4.5 (Anthropic)	Nicht offengelegt	200K	Nein (vermutet)	Nein	$3.00
Llama 4 Maverick (Meta)	400B (17B aktiv)	1M	Ja	Ja (Llama License)	$0.20+ (Hosting)
DeepSeek-R1 (DeepSeek)	671B (37B aktiv)	128K	Ja	Ja (MIT)	$0.55

Qwen3-235B zeigt ein Qualitätsniveau, das auf den meisten Benchmarks mit GPT-5.4 und Claude Sonnet 4.5 vergleichbar ist, während seine Kosten über das JoinGonka Gateway 2.500-mal niedriger sind als die von GPT-5.4. Dies ist auf zwei Faktoren zurückzuführen: Die MoE-Architektur reduziert die Rechenkosten, und das dezentrale Gonka-Netzwerk eliminiert die Margen der Rechenzentren.

Auf den Benchmarks MMLU-Pro, HumanEval, MATH-500 und GSM8K gehört das Modell zu den Top 3 der Open-Source-Modelle und liegt in mathematischen Schlussfolgerungsaufgaben (Reasoning) nur hinter DeepSeek-R1. Bei Aufgaben zur Codegenerierung, Übersetzung und Befolgung von Anweisungen übertrifft Qwen3-235B konsequent Llama 4 Maverick und ist mit Claude Sonnet 4.5 vergleichbar.

Wie Gonka Qwen3-235B nutzt

Das Qwen3-235B-Modell läuft im Gonka-Netzwerk verteilt – über das DiLoCo-Protokoll, das für die Inferenz angepasst wurde. Das vollständige Modell im FP8-Format benötigt etwa 640 GB Videospeicher (VRAM), was nicht auf eine einzige GPU passt – selbst H100 80GB oder H200 141GB reichen nicht aus. Daher ist das Modell in Schichten (Tensor Parallelismus + Pipeline Parallelismus) auf mehrere ML-Nodes aufgeteilt.

In der Praxis läuft Qwen3-235B auf einem Cluster von 8–16 GPU-Nodes, jede mit mindestens 40 GB VRAM. Transfer Agents leiten die Anfrage an den richtigen Cluster weiter, vLLM auf jeder Node verarbeitet ihren Teil des Modells, die Ergebnisse werden aggregiert und an den Benutzer zurückgegeben. Der gesamte Prozess dauert Hunderte von Millisekunden – der Benutzer merkt nicht, dass seine Anfrage von einem Dutzend GPUs an verschiedenen Orten der Welt bearbeitet wurde.

Ein wichtiges technisches Detail: Gonka verwendet vLLM als Engine für das Serving. vLLM ist ein Open-Source-Projekt, das eine Hochleistungs-Textgenerierung über PagedAttention ermöglicht – einen Algorithmus, der die Nutzung des Videospeichers bei der parallelen Verarbeitung vieler Anfragen optimiert. Dies ermöglicht es dem Netzwerk, Tausende gleichzeitiger Benutzer ohne Qualitätsverlust zu bedienen.

Das Modell unterstützt nativen Tool Calling – den Aufruf von Funktionen und Tools direkt aus der Modellantwort. Diese Funktion wurde in Gonka über PR #767 mit einem Schwellenwert von 0.958 zur Erkennung von Tool-Aufrufen hinzugefügt. Das bedeutet, dass Entwickler AI-Agenten erstellen können, die mit externen APIs, Datenbanken und Tools interagieren – alles über eine einzige Anfrage an Qwen3-235B.

Das aktuelle Gonka-Netzwerk umfasst über 4.000 GPUs (H100, H200, A100, RTX 4090 und andere), die in über 120 ML-Nodes gebündelt sind. Dies ist eines der größten verteilten GPU-Netzwerke für AI-Inferenz weltweit – und all diese Leistung ist auf die Bedienung von Qwen3-235B ausgerichtet.

Wie man Qwen3-235B ausprobiert

Der einfachste Weg, Qwen3-235B auszuprobieren, ist über das JoinGonka API Gateway. Das Gateway bietet eine OpenAI-kompatible API, was bedeutet: Jeder für OpenAI geschriebene Code funktioniert mit Qwen3-235B ohne Änderungen – einfach die URL und den API-Schlüssel ersetzen.

Beispiel einer Anfrage:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "Erkläre die MoE-Architektur"}]
  }'

Kosten: 0,001 US-Dollar pro 1 Million Tokens – das ist 2.500 Mal billiger als GPT-5.4 (2,50 US-Dollar/1M) und 3.000 Mal billiger als Claude Sonnet 4.5 (3,00 US-Dollar/1M). Bei der Registrierung erhalten Sie 10 Millionen kostenlose Tokens zum Testen.

Das Gateway ist mit gängigen Entwicklungstools kompatibel: Quick Start beschreibt die Verbindung über Python, Node.js und curl. IDE-Integrationen – Cursor, Continue, Cline, Aider und Claude Code – sowie Frameworks für AI-Agenten: LangChain, n8n, LibreChat, Open WebUI werden ebenfalls unterstützt.

Für einen schnellen Start:

Registrieren Sie sich auf gate.joingonka.ai (verbinden Sie eine Wallet oder erstellen Sie eine neue)
Holen Sie sich den API-Schlüssel im Dashboard
Ersetzen Sie api.openai.com durch gate.joingonka.ai/api in Ihrem Code
Verwenden Sie das Modell qwen3-235b-a22b

Qwen3-235B über JoinGonka – das ist AI auf Unternehmensniveau zum Preis eines Hobbyprojekts.

Qwen3-235B-A22B ist ein MoE-Modell mit 235 Milliarden Parametern von Alibaba Cloud, das das Gonka-Netzwerk für dezentrales AI-Inferenz verwendet. Dank der MoE-Architektur bietet es eine Qualität auf dem Niveau von GPT-5.4 zu 2.500-mal niedrigeren Kosten. Über das JoinGonka Gateway ist das Modell über eine OpenAI-kompatible API für 0,001 US-Dollar/1M Tokens verfügbar.

← GPU-Auswahl für Gonka: Hardware-Empfehlungen Kimi K2.6: Das zweite Modell des Gonka-Netzwerks →

Möchten Sie mehr erfahren?

Erkunden Sie andere Abschnitte oder beginnen Sie jetzt GNK zu verdienen.

Qwen3-235B ausprobieren →