Kimi K2.6 : Le deuxième modèle du réseau Gonka

Pendant longtemps, le réseau Gonka a fonctionné avec un seul modèle — Qwen3-235B d'Alibaba Cloud. En mai 2026, cela a changé : la prise en charge de plusieurs modèles via le mécanisme DevShards a été lancée, et la première nouveauté a été le modèle Kimi K2.6 de la société chinoise Moonshot AI. Plus tard, MiniMax M2.7 a été ajouté, et le Qwen3-235B a finalement été retiré du réseau — aujourd'hui, Gonka prend en charge deux modèles : Kimi K2.6 et MiniMax M2.7. Analysons ce qu'est ce modèle, en quoi il diffère de MiniMax M2.7, comment Gonka a techniquement implémenté la multi-modélité et comment l'essayer via notre API Gateway.

Qu'est-ce que Kimi K2.6 de Moonshot AI

Kimi K2.6 est un grand modèle linguistique (LLM) de la série Kimi, développé par la société pékinoise Moonshot AI. Moonshot AI est l'un des principaux laboratoires d'IA en Chine, fondé en 2023 par une équipe de chercheurs dirigée par Yang Zhilin. L'entreprise a levé des fonds auprès d'Alibaba, Tencent et d'autres grands investisseurs, et figure sur la liste des «tigres de l'IA chinois» — des entreprises qui donnent le ton du développement de l'IA en Asie.

La série Kimi est connue depuis 2024. Les premières versions (K1, K1.5) ont immédiatement attiré l'attention par leur fenêtre contextuelle exceptionnellement longue — jusqu'à 200 000 jetons dans une seule requête, ce qui était un record pour les modèles disponibles publiquement au moment de leur sortie. Un contexte long signifie la possibilité pratique d'analyser un livre entier, une base de code de taille moyenne ou une collection de documents juridiques en une seule requête. Au moment de la sortie de Kimi, cette caractéristique était un avantage concurrentiel majeur.

La version K2 est apparue en 2025 et a apporté un saut architectural fondamental — le passage à MoE (Mixture of Experts). Cette même architecture sous-tend Qwen3-235B et DeepSeek-R1 — elle est devenue la norme de facto pour les plus grands modèles de 2025-2026. MoE permet d'avoir des centaines de milliards de paramètres «au total», mais de n'activer qu'un sous-ensemble (généralement 5-10%) pour chaque requête, ce qui réduit radicalement le coût de calcul de l'inférence tout en maintenant une qualité comparable.

K2.6 est la dernière itération de la série K2 au moment de la rédaction de cet article. Selon les déclarations publiques de Moonshot AI, cette version améliore les capacités de raisonnement du modèle, la génération de code et l'appel d'outils natifs (tool calling). Dans le réseau Gonka, le modèle est identifié comme moonshotai/Kimi-K2.6 — c'est le nom à transmettre dans le champ model de la requête API.

Comparaison entre Kimi K2.6 et MiniMax M2.7

Ces deux modèles représentent les développements phares des plus grands laboratoires d'IA chinois et sont tous deux accessibles via l'interface unifiée compatible OpenAI JoinGonka Gateway. Ils possèdent cependant des points forts et des héritages différents, ce qui rend le choix entre eux non pas une question de « meilleur modèle », mais une question de « quel modèle correspond à la tâche ».

Caractéristique	Kimi K2.6	MiniMax M2.7
Fabricant	Moonshot AI (Pékin)	MiniMax (Shanghai)
Année de création	2023	2021
Architecture	MoE	MoE + linear attention
Fenêtre de contexte	200 000 tokens	200 000 tokens
Point fort	Reasoning, long contexte, code generation	Long contexte, efficient (linear) attention
Prix via JoinGonka	0,003 $ par 1M de tokens	0,003 $ par 1M de tokens
Identifiant API	`moonshotai/Kimi-K2.6`	`MiniMaxAI/MiniMax-M2.7`
Statut sur le réseau Gonka	Lancé via DevShards (mai 2026)	Lancé via mise à jour v0.2.13 (mai 2026)

Sur les benchmarks de reasoning (MATH-500, GSM8K, AIME), la série Kimi K2 affiche historiquement des résultats dans le haut du panier des modèles open-weights, rivalisant avec DeepSeek-R1 et les modèles o1-style. Sur les tâches de code generation (HumanEval, MBPP), les deux modèles se maintiennent à des niveaux similaires. Le point fort de MiniMax M2.7 est son attention efficace (linéaire) pour les séquences très longues, tandis que Kimi est reconnue pour sa capacité de reasoning solide et le long contexte de la série Kimi.

Avis important sur les benchmarks en 2026 : l'écart entre les meilleurs modèles dans les tests publics a été réduit à quelques pourcents, et cette différence se situe souvent dans la marge d'erreur statistique des benchmarks eux-mêmes. Pour une utilisation pratique, ce n'est pas « qui est 2 % plus performant en MMLU » qui compte, mais la nature des tâches : quel contexte transmettez-vous au modèle, quelle est la complexité des chaînes logiques, avez-vous besoin d'un long historique de dialogue, quelles langues sont utilisées. C'est pourquoi le tableau ci-dessus ne classe pas les modèles : il aide à comprendre rapidement pour quel profil de tâches chacun est optimisé.

Pour un choix pratique : si la tâche nécessite un long contexte (analyse de gros documents, lecture d'une base de code volumineuse, longs dialogues avec conservation de l'historique) ou des tâches de reasoning complexes, commencez par Kimi K2.6. Si la priorité est le traitement de séquences d'entrée très longues et de données en flux, testez MiniMax M2.7 avec son attention efficace. Une bonne stratégie en production est d'avoir les deux modèles dans votre code : un changement rapide via le paramètre model permet de basculer entre eux selon la tâche sans modifier l'architecture de l'application.

DevShards : comment Gonka a lancé le second modèle

Jusqu'au printemps 2026, l'ensemble du réseau Gonka a pris en charge un seul modèle : Qwen3-235B. D'un point de vue architectural, il s'agissait d'une décision sensée : l'inférence distribuée via DiLoCo exige que tous les participants du réseau maintiennent le même modèle dans la mémoire vidéo, sinon il est impossible de garantir qu'un nœud puisse traiter n'importe quelle requête. Le modèle Qwen3-235B complet au format FP8 occupe environ 640 Go de VRAM, ce qui est en soi un engagement énorme pour chaque MLNode.

Pour passer à un réseau multi-modèles, un mécanisme était nécessaire pour permettre de conserver plusieurs modèles simultanément sans exiger que chaque hôte les exécute tous. Ce mécanisme est devenu les DevShards — des shards de réseau distincts, chacun spécialisé dans un seul modèle. Les nœuds au sein d'un même shard travaillent sur le même modèle, et le routeur réseau dirige la requête vers le shard contenant le modèle requis.

L'idée n'est pas sortie de nulle part — elle a été formalisée dans la Gonka Improvement Proposal #800 « Multi-Model PoC », soumise au vote de la communauté au printemps 2026. La proposition a reçu le soutien des participants et des validateurs du réseau et a été mise en œuvre entre avril et mai 2026. Kimi K2.6 est devenu le premier modèle lancé sur un DevShard dédié — c'est-à-dire, en fait, une implémentation test de la nouvelle approche. Si l'expérience s'avère concluante, rien n'empêche d'en lancer un troisième, un quatrième, etc. — chacun sur son propre shard, avec son propre ensemble d'hôtes, sa propre économie et sa propre roadmap.

Ce que cela signifie pour les utilisateurs et les développeurs :

Une API — plusieurs modèles. Via le JoinGonka Gateway, inutile de changer l'endpoint ou les clés : il suffit d'indiquer un autre model dans le corps de la requête. Le format compatible OpenAI est entièrement conservé.
Le prix reste le même. Actuellement, Kimi K2.6 sur le réseau est facturé au même tarif que MiniMax M2.7 — 0,003 $ pour 1M de tokens via le Gateway. À l'avenir, les prix pourront varier selon les modèles, mais un prix unique au lancement est une décision délibérée pour simplifier la migration des utilisateurs.
La stabilité dépend de la charge du shard. À un stade précoce, le shard d'un nouveau modèle dispose de moins d'hôtes ; par conséquent, en cas de concentration des requêtes, le modèle peut temporairement renvoyer 429 too many concurrent requests. C'est une phase normale pour un nouveau modèle — à mesure que l'intérêt croît, les hôtes se connecteront à son shard et les limites augmenteront.
Tool calling — en cours d'ajustement. Au moment de la rédaction de cet article, Kimi K2.6 sur le réseau Gonka présente des problèmes mineurs de sélection automatique des outils (tool_choice: "auto"). L'équipe Gonka travaille à aligner le comportement sur le standard OpenAI ; pour les scénarios critiques en production utilisant le tool calling, testez au préalable le comportement du modèle avec vos requêtes.

Comment essayer Kimi K2.6 via Gonka

Le moyen le plus direct est via la JoinGonka API Gateway. La Gateway fournit une API compatible OpenAI, ce qui signifie : le même code qui fonctionne avec GPT, Claude ou d'autres modèles commencera à fonctionner avec Kimi après avoir modifié la valeur du champ model dans le corps de la requête.

Exemple minimal via curl :

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2.6",
    "messages": [
      {"role": "user", "content": "Explique la différence entre les modèles MoE et dense"}
    ]
  }'

La même requête avec Python via la bibliothèque openai :

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Salut, Kimi"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) — pour les interfaces interactives et les chats où vous souhaitez afficher la réponse au fur et à mesure de la génération :

stream = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Écris un essai sur MoE"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Le coût de Kimi K2.6 est de 0,003 $ pour 1 million de tokens, le tarif unifié du réseau. Cela représente environ 1 700 fois moins cher que GPT-5.5 et environ 1 000 fois moins cher que Claude Sonnet 4.6. Lors de l'inscription sur JoinGonka Gateway, vous recevez 10 millions de tokens gratuits pour tester n'importe quel modèle du réseau — cela suffit pour plusieurs heures de travail intensif ou des dizaines de milliers de requêtes classiques.

Compatibilité avec les outils de développement : tout ce qui fonctionne avec l'API OpenAI fonctionne également avec Kimi via la Gateway. Au niveau du modèle, il suffit de changer le paramètre model :

Cursor : dans les paramètres Custom Model, indiquez moonshotai/Kimi-K2.6
Claude Code : variable d'environnement ANTHROPIC_MODEL ou flag --model
OpenClaw, Cline, Continue.dev : dans la configuration CustomChatModel, modifiez le nom du modèle
LangChain, n8n : paramètre model lors de l'initialisation du client
Open WebUI, LibreChat : le modèle apparaît dans le menu déroulant après avoir ajouté Gonka comme fournisseur personnalisé

La liste des modèles disponibles est toujours à jour dans le endpoint GET /v1/models de votre instance Gateway — c'est pratique pour l'extraire dynamiquement dans l'UI de votre application afin que les utilisateurs voient la liste complète et puissent choisir le modèle eux-mêmes.

Le chat de démonstration sur la page /try utilise au moment de la publication l'un des modèles actifs du réseau — un sélecteur multi-modèles dans le widget est sur la roadmap. Pour essayer Kimi dès maintenant, utilisez la Gateway API : 10M de tokens gratuits suffiront pour quelques heures d'expérimentation. Si vous recevez une réponse 429 too many concurrent requests, c'est une phase normale pour un modèle récent lors des premières étapes de croissance du réseau Gonka. Réessayez simplement la requête dans quelques secondes ou attendez une période de moindre charge.

Quelle est la suite pour le réseau Gonka : le succès des DevShards pour Kimi ouvre la voie à d'autres modèles. Les discussions de la communauté mentionnent DeepSeek-V3/R1, Llama 4 et des modèles spécialisés pour le code. Chaque nouveau modèle correspond à un nouveau shard, de nouveaux hôtes, de nouvelles opportunités pour les utilisateurs et une nouvelle source de revenus pour les fournisseurs de GPU. L'architecture multi-modèles est également stratégiquement importante : un réseau lié à un seul modèle est fondamentalement fragile (la sortie d'une nouvelle version = crise de migration), tandis qu'un réseau capable de maintenir plusieurs modèles simultanément évolue de manière fluide et continue.

Kimi K2.6 via OpenRouter coûte 0,684 $/3,42 $ pour 1M, contre 0,003 $ chez JoinGonka (des centaines de fois plus cher).

Kimi K2.6 est un modèle MoE de Moonshot AI avec un contexte long et de fortes capacités de raisonnement. En mai 2026, il est devenu le deuxième modèle du réseau Gonka après Qwen3-235B, lancé via le mécanisme DevShards (un shard dédié par modèle). Via le JoinGonka Gateway, il est disponible via une API compatible OpenAI pour 0,003 $ par 1M de tokens, le tarif uniforme du réseau. Identifiant du modèle dans l'API : moonshotai/Kimi-K2.6. Au début, des erreurs 429 temporaires sont possibles en cas de concentration de requêtes ; le tool calling est en phase de finalisation.

← Qwen3-235B : le modèle précédemment desservi par Gonka MiniMax M2.7 : modèle du réseau Gonka →

Vous voulez en savoir plus ?

Explorez d'autres sections ou commencez à gagner des GNK dès maintenant.

Essayer Kimi K2.6 via Gateway →