Sezioni dell'archivio conoscenza ▾

Strumenti

Tecnologia

Kimi K2.6: il secondo modello della rete Gonka

Per molto tempo la rete Gonka ha funzionato con un solo modello — Qwen3-235B di Alibaba Cloud. A maggio 2026, questo è cambiato: è stato lanciato il supporto per più modelli tramite il meccanismo DevShards, e la prima rondine è stata Kimi K2.6 della società cinese Moonshot AI. Vediamo cos'è questo modello, in cosa differisce da Qwen3-235B, come Gonka ha implementato tecnicamente la multi-modalità e come provare il nuovo modello tramite il nostro API Gateway.

Cos'è Kimi K2.6 di Moonshot AI

Kimi K2.6 è un modello linguistico di grandi dimensioni (LLM) della serie Kimi, sviluppato dalla società di Pechino Moonshot AI. Moonshot AI è uno dei principali laboratori AI cinesi, fondato nel 2023 da un team di ricercatori guidati da Yang Zhilin. L'azienda ha attratto finanziamenti da Alibaba, Tencent e altri grandi investitori ed è entrata nell'elenco delle “tigri AI cinesi” — aziende che dettano il ritmo dello sviluppo dell'AI in Asia.

La serie Kimi è conosciuta dal 2024. Le versioni precedenti (K1, K1.5) hanno subito attirato l'attenzione per la finestra contestuale eccezionalmente lunga — fino a 200.000 token in una singola richiesta, che al momento del rilascio era un record per i modelli disponibili pubblicamente. Il contesto lungo significa la possibilità pratica di analizzare un libro intero, una base di codice di medie dimensioni o una selezione di documenti legali in una singola richiesta. Al momento del lancio di Kimi, questa caratteristica era un forte vantaggio competitivo.

La versione K2 è apparsa nel 2025 e ha portato un salto architettonico fondamentale — il passaggio a MoE (Mixture of Experts). Questa stessa architettura è alla base di Qwen3-235B e DeepSeek-R1 — è diventata lo standard di fatto per i modelli più grandi del 2025-2026. MoE permette di avere centinaia di miliardi di parametri “in totale”, ma per ogni richiesta attivare solo un sottoinsieme (solitamente 5-10%), il che riduce radicalmente il costo computazionale dell'inferenza con una qualità comparabile.

K2.6 è l'ultima iterazione della serie K2 al momento della stesura di questo articolo. Dalle dichiarazioni pubbliche di Moonshot AI si evince che in questa versione sono state migliorate le capacità del modello nel ragionamento (logical reasoning), nella generazione di codice e nella chiamata nativa di strumenti (tool calling). Nella rete Gonka il modello è identificato come moonshotai/Kimi-K2.6 — questo è il nome da passare nel campo model della richiesta API.

Confronto tra Kimi K2.6 e Qwen3-235B

Entrambi i modelli rappresentano gli sviluppi di punta dei maggiori laboratori AI cinesi ed entrambi sono accessibili tramite un'unica interfaccia compatibile con OpenAI, il JoinGonka Gateway. Tuttavia, hanno punti di forza e un'eredità diverse, il che rende la scelta tra loro non una questione di “quale sia migliore”, ma di “quale sia adatto al compito”.

CaratteristicaKimi K2.6Qwen3-235B-A22B
ProduttoreMoonshot AI (Pechino)Alibaba Cloud (Hangzhou)
Anno di fondazione dell'azienda20232009 (Alibaba Cloud)
ArchitetturaMoEMoE (235B totali, 22B attivi)
Finestra contestualeContesto lungo (biglietto da visita della serie Kimi)131.072 token (~100.000 parole)
Punto di forzaRagionamento, contesto lungo, generazione di codiceUniversale, multilingua (119 lingue), tool calling stabile
Prezzo tramite JoinGonka$0.001 per 1M di token$0.001 per 1M di token
Identificatore APImoonshotai/Kimi-K2.6Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
Tool callingIn fase di rifinitura (auto-choice)Nativo, stabile (PR #767)
Stato nella rete GonkaLanciato tramite DevShards (maggio 2026)Stabile da agosto 2025

Sui benchmark di ragionamento (MATH-500, GSM8K, AIME) la serie Kimi K2 ha storicamente dimostrato risultati nel gruppo superiore dei modelli open-weights, competendo con DeepSeek-R1 e i modelli in stile o1. Per quanto riguarda le attività di generazione di codice (HumanEval, MBPP) entrambi i modelli si mantengono su livelli simili. Nella multilinguismo e nella traduzione Qwen3-235B ha un vantaggio grazie all'addestramento su 119 lingue, mentre Kimi è più ottimizzato per il cinese e l'inglese.

Un'importante avvertenza sui benchmark nel 2026: il divario tra i modelli migliori nei test pubblici si è ridotto a pochi punti percentuali, e questa differenza spesso rientra nel margine di errore statistico dei benchmark stessi. Per il lavoro pratico, ciò che conta non è “chi è superiore del 2% in MMLU”, ma la natura dei compiti: quale contesto si passa al modello, quanto sono complesse le catene logiche, se è necessaria una lunga cronologia del dialogo, quali lingue vengono utilizzate. Pertanto, la tabella sopra non classifica i modelli — aiuta a capire rapidamente per quale profilo di compiti ciascuno di essi è ottimizzato.

Per una scelta pratica: se il compito richiede un contesto lungo (analisi di documenti di grandi dimensioni, lettura di una vasta codebase, dialoghi lunghi con conservazione della cronologia) o compiti di ragionamento complessi — si dovrebbe iniziare con Kimi K2.6. Per compiti universali, traduzioni, lavoro multilingue e tool calling stabile in produzione — Qwen3-235B sembra ancora un'opzione più collaudata, poiché opera nella rete Gonka da più tempo. Una buona strategia in produzione è quella di avere entrambi i modelli nel proprio codice: un rapido cambio tramite il parametro model consente di passare da uno all'altro a seconda del compito senza modificare l'architettura dell'applicazione.

DevShards: come Gonka ha lanciato il secondo modello

Fino alla primavera del 2026, l'intera rete Gonka serviva esattamente un modello — Qwen3-235B. Dal punto di vista architettonico, questa era una decisione sensata: l'inferenza distribuita tramite DiLoCo richiede che tutti i partecipanti alla rete mantengano lo stesso modello nella VRAM, altrimenti è impossibile garantire che qualsiasi nodo possa elaborare qualsiasi richiesta. Un Qwen3-235B completo in formato FP8 occupa circa 640 GB di VRAM, che di per sé è un enorme obbligo per ogni nodo ML.

Per passare a una rete multi-modello era necessario un meccanismo che permettesse di mantenere più modelli contemporaneamente, ma che non richiedesse a ogni host di eseguirli tutti. Questo meccanismo sono diventati i DevShards — shard della rete separati, ognuno dei quali si specializza in un modello. I nodi all'interno di uno shard lavorano sullo stesso modello, e il router di rete indirizza la richiesta allo shard con il modello necessario.

L'idea non è nata dal nulla — è stata formalizzata nella Gonka Improvement Proposal #800 “Multi-Model PoC”, sottoposta al voto della comunità nella primavera del 2026. La proposta ha ricevuto il supporto dei partecipanti e dei validatori della rete ed è stata implementata tra aprile e maggio 2026. Kimi K2.6 è stato il primo modello lanciato su un DevShard separato — cioè, in pratica, un'implementazione di test del nuovo approccio. Se l'esperienza si rivelerà positiva, nulla impedisce di lanciare il terzo, il quarto e così via — ognuno sul proprio shard, con il proprio set di host, la propria economia e la propria roadmap.

Cosa significa questo per utenti e sviluppatori:

  • Un'unica API — più modelli. Tramite JoinGonka Gateway non è necessario modificare endpoint o chiavi: è sufficiente specificare un altro model nel corpo della richiesta. Il formato compatibile con OpenAI è completamente mantenuto.
  • Il prezzo è lo stesso. Attualmente Kimi K2.6 nella rete è tariffato alla stessa tariffa di Qwen3-235B — $0.001 per 1M di token tramite Gateway. In futuro i prezzi potrebbero variare per i modelli, ma un prezzo unico all'inizio è una decisione consapevole per semplificare la migrazione degli utenti.
  • La stabilità dipende dal carico dello shard. Nella fase iniziale lo shard Kimi ha meno host rispetto allo shard principale Qwen, quindi in caso di concentrazione di richieste il modello potrebbe temporaneamente restituire 429 too many concurrent requests. Questa è una fase normale per un nuovo modello — man mano che l'interesse cresce, gli host si connetteranno allo shard Kimi e i limiti aumenteranno.
  • Il tool calling — in fase di rifinitura. Al momento della stesura di questo articolo Kimi K2.6 nella rete Gonka presenta piccoli problemi con la selezione automatica degli strumenti (tool_choice: "auto"). Il team Gonka sta lavorando per portare il comportamento allo standard OpenAI; per scenari critici in produzione con tool calling si raccomanda di utilizzare Qwen3-235B per ora.

Come provare Kimi K2.6 tramite Gonka

Il percorso più diretto è attraverso il JoinGonka API Gateway. Il Gateway fornisce un'API compatibile con OpenAI, il che significa: lo stesso codice che funziona con GPT, Claude o Qwen, inizierà a funzionare con Kimi dopo aver modificato il valore del campo model nel corpo della richiesta.

Esempio minimo tramite curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2.6",
    "messages": [
      {"role": "user", "content": "Spiega la differenza tra modelli MoE e dense"}
    ]
  }'

La stessa richiesta con Python tramite la libreria openai:

from openai import OpenAI\n\nclient = OpenAI(\n    api_key="YOUR_API_KEY",\n    base_url="https://gate.joingonka.ai/v1",\n)\n\nresponse = client.chat.completions.create(\n    model="moonshotai/Kimi-K2.6",\n    messages=[{"role": "user", "content": "Ciao, Kimi"}],\n)\nprint(response.choices[0].message.content)

Streaming (Server-Sent Events) — per interfacce interattive e chat, dove si desidera mostrare la risposta man mano che viene generata:

stream = client.chat.completions.create(\n    model="moonshotai/Kimi-K2.6",\n    messages=[{"role": "user", "content": "Scrivi un saggio sui MoE"}],\n    stream=True,\n)\nfor chunk in stream:\n    delta = chunk.choices[0].delta.content\n    if delta:\n        print(delta, end="", flush=True)

Il costo di Kimi K2.6 è lo stesso $0.001 per 1 milione di token, come per Qwen3-235B. Questo è circa 2.500 volte più economico di GPT-5.4 e circa 3.000 volte più economico di Claude Sonnet 4.5. Con la registrazione al JoinGonka Gateway ricevi 10 milioni di token gratuiti per testare qualsiasi modello della rete — questo sarà sufficiente per diverse ore di lavoro intenso o decine di migliaia di richieste обычных.

Compatibilità con gli strumenti di sviluppo: tutto ciò che funziona con l'API OpenAI, funziona anche con Kimi tramite il Gateway. A livello di modello è sufficiente modificare il parametro model:

  • Cursor: nelle impostazioni del Modello Personalizzato specificare moonshotai/Kimi-K2.6
  • Claude Code: variabile d'ambiente ANTHROPIC_MODEL o flag --model
  • OpenClaw, Cline, Continue.dev: nel file di configurazione CustomChatModel modificare il nome del modello
  • LangChain, n8n: parametro model nell'inizializzazione del client
  • Open WebUI, LibreChat: il modello appare nel menu a tendina dopo aver aggiunto Gonka come provider personalizzato

L'elenco dei modelli disponibili è sempre aggiornato nell'endpoint GET /v1/models della tua istanza Gateway — da lì è comodo prelevarlo dinamicamente nell'interfaccia utente della tua applicazione, in modo che gli utenti vedano l'elenco completo e possano scegliere il modello da soli.

La demo chat sulla pagina /try al momento della pubblicazione funziona solo con Qwen3-235B — il selettore multi-modello nel widget è in roadmap. Per provare Kimi adesso, usa l'API Gateway: 10M token gratuiti saranno sufficienti per diverse ore di esperimenti. Se in risposta ricevi 429 too many concurrent requests — questa è una fase normale per un modello nuovo nelle prime fasi di crescita della rete Gonka. Ripeti semplicemente la richiesta dopo pochi secondi o attendi una finestra di minor carico.

Cosa succederà dopo per la rete Gonka: il successo dei DevShards per Kimi apre la strada ad altri modelli. Nelle discussioni della comunità si figurano DeepSeek-V3/R1, Llama 4 e modelli specializzati per il codice. Ogni nuovo modello è un nuovo shard, nuovi host, nuove opportunità per gli utenti e una nuova fonte di reddito per i fornitori di GPU. L'architettura multimodale è anche strategicamente importante: una rete legata a un singolo modello è fondamentalmente fragile (il rilascio di una nuova versione è una crisi di migrazione), mentre una rete in grado di mantenere più modelli contemporaneamente si evolve in modo morbido e continuo.

Kimi K2.6 — un modello MoE di Moonshot AI con contesto lungo e forti capacità di ragionamento. A maggio 2026, è diventato il secondo modello della rete Gonka dopo Qwen3-235B, lanciato tramite il meccanismo DevShards (shard separato per modello). Tramite JoinGonka Gateway è disponibile tramite API compatibile OpenAI a $0.001 per 1M di token — lo stesso prezzo di Qwen. L'identificatore del modello nell'API: moonshotai/Kimi-K2.6. Nella fase iniziale sono possibili temporanei 429 in caso di concentrazione di richieste; il tool calling è in fase di perfezionamento.

Vuoi saperne di più?

Esplora altre sezioni o inizia a guadagnare GNK subito.

Prova Kimi K2.6 tramite Gateway →