Qwen3-235B : le modèle miné par Gonka

Le réseau Gonka ne se contente pas de louer des GPU, il héberge des modèles d'IA pour l'inférence. Pendant longtemps, le seul modèle disponible était Qwen3-235B-A22B-Instruct, développé par Alibaba Cloud. En mai 2026, Kimi K2.6 de Moonshot AI l'a rejoint. Voyons ce qu'est ce modèle, pourquoi Gonka l'a choisi et comment l'essayer via notre API Gateway.

Qu'est-ce que Qwen3-235B

Qwen3-235B-A22B-Instruct-2507-FP8 est un grand modèle linguistique (LLM) de la famille Qwen3, développé par l'équipe Qwen d'Alibaba Cloud. Le nom complet s'explique ainsi : Qwen3 - troisième génération de la série, 235B - 235 milliards de paramètres au total, A22B - 22 milliards de paramètres actifs par requête, Instruct - version entraînée à suivre des instructions, 2507 - sortie de juillet 2025, FP8 - quantification 8 bits pour l'optimisation de la mémoire.

La principale caractéristique architecturale est le MoE (Mixture of Experts). Contrairement aux modèles "denses" (GPT-5.4, Claude Sonnet 4.5), où chaque jeton passe par tous les paramètres, un modèle MoE n'active pour chaque requête qu'un sous-ensemble d'"experts" - des blocs spécialisés du réseau neuronal. Dans le cas de Qwen3-235B, sur 235 milliards de paramètres, seuls 22 milliards sont activés pour chaque jeton - moins de 10 %. Cela offre une qualité au niveau des modèles avec plus de 200 milliards de paramètres pour des coûts de calcul d'un modèle de 22 milliards.

Concrètement, cela signifie que le modèle est plus intelligent qu'on pourrait s'y attendre compte tenu de sa vitesse. Il traite les requêtes beaucoup plus rapidement que les modèles denses de qualité comparable, tout en nécessitant beaucoup moins de VRAM pour l'inférence. C'est pourquoi MoE est devenu l'architecture dominante pour les plus grands modèles de 2025-2026.

La fenêtre contextuelle de Qwen3-235B est de 131 072 jetons (environ 100 000 mots) - cela suffit pour analyser des livres entiers, des bases de code ou de longs documents juridiques en une seule requête. Le modèle prend en charge 119 langues, dont le russe, l'anglais, le chinois, l'arabe, l'hindi et des dizaines d'autres - ce qui en fait l'un des modèles les plus multilingues du marché.

Caractéristiques et benchmarks

Qwen3-235B rivalise avec les plus grands modèles fermés et ouverts. Voici une comparaison des principales caractéristiques :

Modèle	Paramètres	Contexte	MoE	Open Source	Prix (pour 1M de tokens)
Qwen3-235B (via JoinGonka)	235B (22B actifs)	131K	Oui	Oui (Apache 2.0)	0,001 $
GPT-5.4 (OpenAI)	~1.8T (estimation)	128K	Oui (supposé)	Non	2,50 $
Claude Sonnet 4.5 (Anthropic)	Non divulgué	200K	Non (supposé)	Non	3,00 $
Llama 4 Maverick (Meta)	400B (17B actifs)	1M	Oui	Oui (licence Llama)	0,20 $ + (hébergement)
DeepSeek-R1 (DeepSeek)	671B (37B actifs)	128K	Oui	Oui (MIT)	0,55 $

Qwen3-235B démontre un niveau de qualité comparable à GPT-5.4 et Claude Sonnet 4.5 sur la plupart des benchmarks, tout en étant 2 500 fois moins cher via JoinGonka Gateway que GPT-5.4. Ceci est possible grâce à deux facteurs : l'architecture MoE réduit les coûts de calcul, et le réseau décentralisé Gonka élimine la marge des centres de données.

Sur les benchmarks MMLU-Pro, HumanEval, MATH-500 et GSM8K, le modèle se classe parmi les trois meilleurs modèles open source, ne cédant qu'à DeepSeek-R1 dans les tâches de raisonnement mathématique. Dans les tâches de génération de code, de traduction et de suivi d'instructions, Qwen3-235B dépasse régulièrement Llama 4 Maverick et est comparable à Claude Sonnet 4.5.

Comment Gonka utilise Qwen3-235B

Le modèle Qwen3-235B fonctionne de manière distribuée dans le réseau Gonka — via le protocole DiLoCo, adapté pour l'inférence. Le modèle complet au format FP8 nécessite environ 640 Go de mémoire vidéo (VRAM), ce qui ne peut être logé sur un seul GPU — même un H100 80 Go ou un H200 141 Go ne suffisent pas. Par conséquent, le modèle est divisé par couches (tensor parallelism + pipeline parallelism) entre plusieurs nœuds ML.

En pratique, Qwen3-235B fonctionne sur un cluster de 8 à 16 nœuds GPU, chacun avec un minimum de 40 Go de VRAM. Les agents de transfert acheminent la requête vers le cluster approprié, vLLM sur chaque nœud traite son fragment de modèle, les résultats sont agrégés et renvoyés à l'utilisateur. L'ensemble du processus prend des centaines de millisecondes — l'utilisateur n'a pas l'impression que sa requête est traitée par des dizaines de GPU à différents endroits du monde.

Détail technique important : Gonka utilise vLLM comme moteur de service. vLLM est un projet open source qui offre une génération de texte haute performance via PagedAttention — un algorithme qui optimise l'utilisation de la mémoire vidéo lors du traitement parallèle de plusieurs requêtes. Cela permet au réseau de servir des milliers d'utilisateurs simultanés sans dégradation de la qualité.

Le modèle prend en charge le tool calling natif — l'appel de fonctions et d'outils directement à partir de la réponse du modèle. Cette fonctionnalité a été ajoutée à Gonka via la PR #767 avec un seuil de 0,958 pour la détection des appels d'outils. Cela signifie que les développeurs peuvent créer des agents d'IA qui interagissent avec des API externes, des bases de données et des outils — le tout via une seule requête à Qwen3-235B.

Le réseau Gonka actuel compte plus de 4 000 GPU (H100, H200, A100, RTX 4090 et autres), regroupés en plus de 120 nœuds ML. C'est l'un des plus grands réseaux GPU distribués pour l'inférence d'IA au monde — et toute cette puissance est dédiée au service de Qwen3-235B.

Comment essayer Qwen3-235B

La manière la plus simple d'essayer Qwen3-235B est via le JoinGonka API Gateway. Le Gateway fournit une API compatible avec OpenAI, ce qui signifie que tout code écrit pour OpenAI fonctionne avec Qwen3-235B sans modification – il suffit de remplacer l'URL et la clé API.

Exemple de requête :

curl https://gate.joingonka.ai/api/v1/chat/completions \n  -H "Authorization: Bearer YOUR_API_KEY" \n  -H "Content-Type: application/json" \n  -d '{ \n    "model": "qwen3-235b-a22b", \n    "messages": [{"role": "user", "content": "Expliquez l'architecture MoE"}] \n  }'

Coût : 0,001 $ par million de tokens – c'est 2 500 fois moins cher que GPT-5.4 (2,50 $/1M) et 3 000 fois moins cher que Claude Sonnet 4.5 (3,00 $/1M). Lors de l'inscription, vous recevez 10 millions de tokens gratuits pour les tests.

Le Gateway est compatible avec les outils de développement populaires : Quick Start décrit la connexion via Python, Node.js et curl. Les intégrations d'IDE sont également prises en charge – Cursor, Continue, Cline, Aider et Claude Code – ainsi que les frameworks pour agents IA : LangChain, n8n, LibreChat, Open WebUI.

Pour un démarrage rapide :

Inscrivez-vous sur gate.joingonka.ai (connectez un portefeuille ou créez-en un nouveau)
Obtenez une clé API dans le tableau de bord
Remplacez api.openai.com par gate.joingonka.ai/api dans votre code
Utilisez le modèle qwen3-235b-a22b

Qwen3-235B via JoinGonka, c'est l'IA de niveau entreprise au prix d'un projet de loisir.

Qwen3-235B-A22B est un modèle MoE de 235 milliards de paramètres d'Alibaba Cloud, utilisé par le réseau Gonka pour l'inférence d'IA décentralisée. Grâce à l'architecture MoE, il offre une qualité équivalente à GPT-5.4 pour un coût 2 500 fois inférieur. Via JoinGonka Gateway, le modèle est disponible via une API compatible OpenAI pour 0,001 $/1M de tokens.

← Choix du GPU pour Gonka : recommandations matérielles Kimi K2.6 : Le deuxième modèle du réseau Gonka →

Vous voulez en savoir plus ?

Explorez d'autres sections ou commencez à gagner des GNK dès maintenant.

Essayer Qwen3-235B →