Qwen3-235B: il modello estratto da Gonka

La rete Gonka non si limita a noleggiare GPU, ma serve modelli AI per l'inferenza. Per molto tempo questo è stato l'unico modello Qwen3-235B-A22B-Instruct, sviluppato da Alibaba Cloud, e a maggio 2026 si è unito Kimi K2.6 di Moonshot AI. Vediamo cos'è questo modello, perché Gonka ha scelto proprio questo e come provarlo tramite il nostro API Gateway.

Cos'è Qwen3-235B

Qwen3-235B-A22B-Instruct-2507-FP8 è un modello linguistico di grandi dimensioni (LLM) della famiglia Qwen3, sviluppato dal team Qwen di Alibaba Cloud. Il nome completo si decodifica così: Qwen3 — terza generazione della serie, 235B — 235 miliardi di parametri totali, A22B — 22 miliardi di parametri attivi per ogni richiesta, Instruct — versione addestrata a seguire le istruzioni, 2507 — rilascio di luglio 2025, FP8 — quantizzazione a 8 bit per l'ottimizzazione della memoria.

La caratteristica architettonica chiave è MoE (Mixture of Experts). A differenza dei modelli “densi” (GPT-5.4, Claude Sonnet 4.5), dove ogni token passa attraverso tutti i parametri, un modello MoE attiva per ogni richiesta solo un sottoinsieme di “esperti” — blocchi specializzati della rete neurale. Nel caso di Qwen3-235B, dei 235 miliardi di parametri, solo 22 miliardi vengono attivati per ogni token — meno del 10%. Questo offre una qualità pari a quella dei modelli con più di 200B parametri, con costi computazionali di un modello da 22B.

Praticamente questo significa: il modello è più intelligente di quanto ci si possa aspettare dalla sua velocità. Elabora le richieste significativamente più velocemente dei modelli densi di qualità comparabile, richiedendo al contempo molto meno VRAM per l'inference. Ecco perché MoE è diventata l'architettura dominante per i modelli più grandi del 2025-2026.

La finestra di contesto di Qwen3-235B è di 131.072 token (~100.000 parole) — sufficiente per analizzare interi libri, basi di codice o lunghi documenti legali in una singola richiesta. Il modello supporta 119 lingue, inclusi russo, inglese, cinese, arabo, hindi e decine di altre — il che lo rende uno dei modelli più multilingue sul mercato.

Caratteristiche e benchmark

Qwen3-235B compete con i più grandi modelli chiusi e aperti. Ecco il confronto delle caratteristiche chiave:

Modello	Parametri	Contesto	MoE	Open Source	Prezzo (per 1M token)
Qwen3-235B (tramite JoinGonka)	235B (22B attivi)	131K	Sì	Sì (Apache 2.0)	$0.001
GPT-5.4 (OpenAI)	~1.8T (stima)	128K	Sì (presunto)	No	$2.50
Claude Sonnet 4.5 (Anthropic)	Non rivelato	200K	No (presunto)	No	$3.00
Llama 4 Maverick (Meta)	400B (17B attivi)	1M	Sì	Sì (Llama License)	$0.20+ (hosting)
DeepSeek-R1 (DeepSeek)	671B (37B attivi)	128K	Sì	Sì (MIT)	$0.55

Qwen3-235B mostra una qualità paragonabile a GPT-5.4 e Claude Sonnet 4.5 nella maggior parte dei benchmark, mentre il suo costo tramite JoinGonka Gateway è 2.500 volte inferiore a quello di GPT-5.4. Questo è possibile grazie a due fattori: l'architettura MoE riduce i costi computazionali, e la rete decentralizzata Gonka elimina i margini dei data center.

Nei benchmark MMLU-Pro, HumanEval, MATH-500 e GSM8K, il modello è tra i primi tre modelli open-source, inferiore solo a DeepSeek-R1 nei compiti di ragionamento matematico. Nei compiti di generazione di codice, traduzione e esecuzione di istruzioni, Qwen3-235B supera costantemente Llama 4 Maverick ed è paragonabile a Claude Sonnet 4.5.

Come Gonka utilizza Qwen3-235B

Il modello Qwen3-235B opera nella rete Gonka in modo distribuito — tramite il protocollo DiLoCo, adattato per l'inference. Il modello completo in formato FP8 richiede circa 640 GB di VRAM (VRAM), cosa impossibile da alloggiare su una singola GPU — anche H100 80GB o H200 141GB non sono sufficienti. Pertanto, il modello è suddiviso in livelli (tensor parallelism + pipeline parallelism) tra più nodi ML.

In pratica, Qwen3-235B opera su un cluster di 8-16 nodi GPU, ciascuno con un minimo di 40 GB di VRAM. Gli agenti di trasferimento instradano la richiesta al cluster appropriato, vLLM su ogni nodo elabora il proprio frammento del modello, i risultati vengono aggregati e restituiti all'utente. L'intero processo richiede centinaia di millisecondi — l'utente non percepisce che la sua richiesta è stata elaborata da una decina di GPU in diversi punti del pianeta.

Un dettaglio tecnico importante: Gonka utilizza vLLM come motore per il serving. vLLM è un progetto open source che fornisce una generazione di testo ad alte prestazioni tramite PagedAttention — un algoritmo che ottimizza l'uso della memoria video elaborando parallelamente più richieste. Questo consente alla rete di servire migliaia di utenti simultanei senza degradazione della qualità.

Il modello supporta il native tool calling — la chiamata di funzioni e strumenti direttamente dalla risposta del modello. Questa capacità è stata aggiunta in Gonka tramite PR #767 con una soglia di 0.958 per la determinazione delle chiamate agli strumenti. Ciò significa che gli sviluppatori possono costruire agenti AI che interagiscono con API esterne, database e strumenti — tutto tramite una singola query a Qwen3-235B.

L'attuale rete Gonka conta oltre 4.000 GPU (H100, H200, A100, RTX 4090 e altre), unite in oltre 120 nodi ML. Questa è una delle più grandi reti GPU distribuite per l'AI inference al mondo — e tutta questa potenza è diretta al servizio di Qwen3-235B.

Come provare Qwen3-235B

Il modo più semplice per provare Qwen3-235B è tramite il JoinGonka API Gateway. Il Gateway fornisce un'API compatibile con OpenAI, il che significa che qualsiasi codice scritto per OpenAI funziona con Qwen3-235B senza modifiche — è sufficiente sostituire l'URL e la chiave API.

Esempio di richiesta:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "Spiega l'architettura MoE"}]
  }'

Costo: $0.001 per 1 milione di token — è 2.500 volte più economico di GPT-5.4 ($2.50/1M) e 3.000 volte più economico di Claude Sonnet 4.5 ($3.00/1M). Al momento della registrazione ricevi 10 milioni di token gratuiti per i test.

Il Gateway è compatibile con popolari strumenti di sviluppo: il Quick Start descrive la connessione tramite Python, Node.js e curl. Sono supportate anche le integrazioni IDE — Cursor, Continue, Cline, Aider e Claude Code — e i framework per agenti AI: LangChain, n8n, LibreChat, Open WebUI.

Per un avvio rapido:

Registrati su gate.joingonka.ai (connetti il portafoglio o creane uno nuovo)
Ottieni la chiave API nella Dashboard
Sostituisci api.openai.com con gate.joingonka.ai/api nel tuo codice
Usa il modello qwen3-235b-a22b

Qwen3-235B tramite JoinGonka è un livello enterprise di AI al prezzo di un progetto hobbistico.

Qwen3-235B-A22B è un modello MoE da 235 miliardi di parametri di Alibaba Cloud, che la rete Gonka utilizza per l'inference AI decentralizzata. Grazie all'architettura MoE, offre una qualità a livello GPT-5.4 a un costo 2.500 volte inferiore. Tramite JoinGonka Gateway, il modello è accessibile tramite API compatibile con OpenAI a $0.001/1M token.

← Scelta della GPU per Gonka: raccomandazioni hardware Kimi K2.6: il secondo modello della rete Gonka →

Vuoi saperne di più?

Esplora altre sezioni o inizia a guadagnare GNK subito.

Prova Qwen3-235B →