MiniMax M2.7: modello della rete Gonka

Nella primavera del 2026 la rete Gonka è passata da monomodello a multimodello. Inizialmente, al modello di punta Qwen3-235B si è aggiunto Kimi K2.6, e alla fine di maggio 2026 — MiniMax M2.7 del laboratorio cinese MiniMax. In seguito Qwen3-235B è stato rimosso dalla rete e oggi Gonka supporta due modelli simultaneamente — Kimi K2.6 e MiniMax M2.7.

Analizziamo cos'è MiniMax M2.7, chi c'è dietro il suo sviluppo, quali sono le sue caratteristiche specifiche all'interno della rete Gonka, in cosa si differenzia dal secondo modello operativo della rete — Kimi K2.6 — e come accedervi tramite il nostro API Gateway seguendo il protocollo compatibile OpenAI.

Cos'è MiniMax M2.7 e chi sta dietro al modello

MiniMax M2.7 è un grande modello linguistico (LLM) della società MiniMax, con sede a Shanghai. MiniMax è stata fondata nel 2021 da un team di ricercatori guidato da Yan Junjie (precedentemente in SenseTime) ed è rapidamente entrata a far parte dei principali laboratori di intelligenza artificiale cinesi. L'azienda ha attratto finanziamenti da Alibaba, Tencent e HongShan — lo stesso circolo di investitori strategici che sta dietro ad altre “tigri dell'IA cinesi”, tra cui Moonshot AI, lo sviluppatore di Kimi K2.6.

Al di là dei puri modelli linguistici, MiniMax è nota per i prodotti di consumo: gli assistenti di chat Talkie e Hailuo, oltre a uno dei generatori video più notevoli del settore. Ma per la rete Gonka è importante la linea di modelli testuali della serie M, eredi dei modelli abab precedenti.

La caratteristica architettonica principale della serie M è l'attenzione al meccanismo di attenzione efficiente. Se i primi grandi modelli utilizzavano l'attenzione quadratica classica (il costo computazionale cresce proporzionalmente al quadrato della lunghezza del contesto), MiniMax è stata una delle prime a rendere disponibile pubblicamente un'attenzione lineare ibrida. Ciò consente di elaborare sequenze molto lunghe senza un'esplosione dei costi computazionali — un marchio di fabbrica storico della linea. Come Qwen3-235B e Kimi K2.6, il modello è costruito sull'architettura MoE (Mixture of Experts): centinaia di miliardi di parametri “sulla carta”, ma per ogni query viene attivata solo una piccola parte di essi, il che riduce radicalmente il costo dell'inferenza.

Nella rete Gonka il modello è identificato come MiniMaxAI/MiniMax-M2.7 — è questa stringa che deve essere passata nel campo model della richiesta API. La versione M2.7 è l'ultima iterazione della serie M al momento della pubblicazione dell'articolo.

Caratteristiche di MiniMax M2.7 nella rete Gonka

È importante distinguere tra le caratteristiche del modello "out-of-the-box" e quelle con cui viene distribuito in una rete specifica. Quando il modello opera nella rete decentralizzata Gonka, i suoi parametri di lavoro sono definiti dalla configurazione dell'inferenza vLLM lato GPU-host, non solo dall'architettura del modello. Ecco i valori effettivi forniti dal nostro Gateway:

Finestra di contesto: 200.000 token (circa 150.000 parole). Questa è la configurazione della subnet nella rete Gonka. L'architettura MiniMax stessa supporta un contesto significativamente più lungo, ma il limite pratico in ogni momento è dettato dalla configurazione dell'inferenza sugli host.
Output massimo: 8.192 token per singola risposta. Questa cifra è stata misurata empiricamente tramite una richiesta di generazione forzata prolungata che ha raggiunto il limite (finish_reason: length). Attualmente, questo tetto è lo stesso per tutti i modelli della rete: fino a 8.192 token. Non si tratta di un limite del modello stesso, ma della configurazione della vLLM-subnet.
Requisiti VRAM host: circa 320 GB di VRAM per nodo. Questo è un requisito tipico per un grande modello MoE in quantizzazione FP8 — gli stessi 320 GB sono necessari anche per Kimi K2.6. In pratica, ciò significa utilizzare diverse GPU di classe H100/H200 raggruppate in un unico nodo.

Il costo dell'inference nella rete Gonka non dipende dalla scelta del modello, ma è determinato dai parametri di rete: tramite il JoinGonka Gateway, MiniMax M2.7 è disponibile alla stessa tariffa di Kimi K2.6. Questo prezzo unificato è una conseguenza del fatto che la rete si basa su un calcolo unitario del costo della potenza di calcolo, anziché sul listino prezzi di un singolo fornitore.

MiniMax M2.7 e Kimi K2.6: confronto tra i modelli Gonka

Gli utenti della rete Gonka hanno a disposizione due modelli di punta, entrambi accessibili tramite l'interfaccia unificata compatibile con OpenAI JoinGonka Gateway. Il confronto seguente aiuta a capire non "quale sia migliore", ma per quale profilo di attività ciascuno sia ottimizzato.

Caratteristica	MiniMax M2.7	Kimi K2.6
Produttore	MiniMax (Shanghai)	Moonshot AI (Pechino)
Architettura	MoE + linear attention	MoE
Contesto in Gonka	200.000 token	200.000 token
Output max	8.192 token	8.192 token
Punti di forza storici	Contesto lungo, efficient attention	Reasoning, contesto lungo
ID API	`MiniMaxAI/MiniMax-M2.7`	`moonshotai/Kimi-K2.6`
Stato nella rete	Lanciato con upgrade v0.2.13 (maggio 2026)	Lanciato tramite DevShards (maggio 2026)

Una nota importante sui benchmark nel 2026: il divario tra i principali modelli open-weights nei test pubblici si è ridotto a pochi punti percentuali, e questa differenza rientra spesso nel margine di errore statistico dei benchmark stessi. Per un utilizzo pratico, ciò che conta non è la posizione assoluta nel ranking MMLU, ma la natura del compito: lunghezza del contesto, complessità delle catene logiche, lingua richiesta, presenza di tool calling.

Indicazione pratica: per attività che coinvolgono documenti molto lunghi ed elaborazione in streaming di grandi volumi di testo, ha senso testare MiniMax M2.7, poiché l'efficient attention della sua serie è storicamente ottimizzato per tali scenari. Per attività di reasoning con logica complessa e contesto lungo, vale la pena confrontare le risposte con Kimi K2.6. La strategia migliore in produzione è mantenere entrambi i modelli nel codice e passare dall'uno all'altro tramite il parametro model, senza dover modificare l'architettura dell'applicazione.

Come Gonka ha lanciato MiniMax M2.7: l'upgrade v0.2.13

L'aggiunta di MiniMax M2.7 non è un "caricamento di file sul server", ma il risultato di un aggiornamento di rete approvato tramite voto on-chain. Il supporto al modello è stato incluso nel rilascio del protocollo v0.2.13, approvato con la proposta #54: è stata accettata il 21 maggio 2026 (con circa il 63% dei voti favorevoli) e attivata a un'altezza di blocco specifica. Si tratta dello stesso meccanismo di governance attraverso il quale la rete accetta qualsiasi cambiamento significativo — dalle tariffe ai nuovi modelli.

La multimodalità per una rete decentralizzata è un passo fondamentale. Una rete vincolata a un unico modello è intrinsecamente fragile: il rilascio di una nuova versione di un modello diventa una crisi di migrazione e qualsiasi guasto di un singolo modello blocca l'intero servizio. Una rete capace di mantenere più modelli simultaneamente si evolve in modo fluido: i nuovi modelli vengono aggiunti come "corsie" extra, quelli vecchi continuano a funzionare e gli host GPU hanno la possibilità di scegliere cosa servire. Tecnicamente, ogni modello vive nel proprio shard di rete — lo stesso meccanismo (DevShards) è stato utilizzato in precedenza per lanciare Kimi K2.6.

Un dettaglio importante delle fasi iniziali: tra la comparsa del modello nell'elenco della rete e la sua apertura a tutti i clienti può esserci un ritardo. Inizialmente, l'inferenza di MiniMax M2.7 in modalità broker era accessibile solo a chiavi privilegiate e restituiva un errore per le richieste ordinarie — una normale fase di rodaggio. Verso la fine di maggio 2026, l'accesso pubblico è stato aperto e il modello è diventato disponibile per tutti i clienti del Gateway. Per ulteriori dettagli su come è strutturata la rete e perché i modelli vengono lanciati in questo modo, consultare l'articolo sull'architettura di rete Gonka.

Lo stesso MiniMax M2.7 tramite OpenRouter costa $0.279/$1.20 per 1M, contro $0.003/$0.009 di JoinGonka.

Come usare MiniMax M2.7 tramite JoinGonka Gateway

Il modo più diretto è tramite JoinGonka API Gateway. Poiché il Gateway fornisce un'API compatibile con OpenAI, lo stesso codice che funziona con GPT, Claude o Kimi inizierà a funzionare con MiniMax dopo aver cambiato il valore del campo model.

Un esempio minimo tramite curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Spiega brevemente cos'è la linear attention"}
    ]
  }'

La stessa richiesta in Python tramite la libreria openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Ciao, MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) — per interfacce interattive in cui la risposta viene visualizzata man mano che viene generata:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Scrivi un breve saggio sul long context"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Al momento della registrazione su JoinGonka Gateway, ricevi 10 milioni di token gratuiti per testare qualsiasi modello della rete: basteranno per confrontare entrambi i modelli della rete sulle tue attività specifiche.

Compatibilità con gli strumenti di sviluppo: tutto ciò che funziona con l'API di OpenAI funziona anche con MiniMax tramite il Gateway. Basta cambiare il parametro model:

Cursor: nelle impostazioni Custom Model specifica MiniMaxAI/MiniMax-M2.7
Claude Code, Cline, Continue.dev: il nome del modello nel file di configurazione
LangChain, n8n: il parametro model durante l'inizializzazione del client

L'elenco aggiornato dei modelli è sempre disponibile nell'endpoint GET /v1/models: è utile per richiamarlo dinamicamente in modo che l'interfaccia utente della tua applicazione mostri sempre l'elenco aggiornato. Se la risposta restituisce 429 too many concurrent requests, è una fase normale per un modello nuovo in una fase iniziale di crescita della rete: riprova la richiesta dopo alcuni secondi.

Quando scegliere MiniMax M2.7 — Scenari pratici

Avere due modelli nella stessa rete è utile perché per compiti diversi si possono scegliere strumenti diversi senza cambiare provider o codice di integrazione. Ecco scenari in cui ha senso iniziare il test proprio con MiniMax M2.7.

Analisi di documenti lunghi. Se il compito è la riassunzione di contratti, l'analisi di documentazione tecnica o l'elaborazione di grandi testi legali o finanziari, l'efficiente attention della serie M è storicamente ottimizzata per mantenere long context senza un aumento drastico dei costi. Invia il documento completo in un'unica richiesta e chiedi al modello di lavorare sull'intero volume, non a pezzi.

RAG e lavoro con basi di conoscenza. In scenari di retrieval-augmented in cui nel contesto vengono mescolati decine di frammenti da una base vettoriale, la capacità del modello di mantenere molti pezzi eterogenei di testo influenza direttamente la qualità della risposta. Questa è una nicchia naturale per modelli con long context.

Elaborazione di trascrizioni e log. Trascrizioni di chiamate, lunghe conversazioni di supporto, log di streaming — attività in cui il volume di input è elevato ma la risposta è solitamente breve. Qui il limite di output di 8 192 token non è un problema: in input arriva molto, in output solo un riassunto o fatti estratti.

Quando scegliere un altro modello. Attualmente tutti i modelli della rete restituiscono fino a 8 192 token in una singola risposta, quindi se la tua applicazione necessita di una risposta molto lunga in un'unica richiesta (un grande documento generato, una parte voluminosa di codice), considera questo limite generale nell'architettura e dividi la generazione in più parti. Per attività con complessi ragionamenti a più passaggi, è bene confrontare le risposte con quelle di Kimi K2.6. Un consiglio universale: esegui lo stesso set di richieste reali attraverso entrambi i modelli e confronta i risultati — i 10 milioni di token gratuiti della registrazione basteranno per un test comparativo completo.

Tecnicamente, passare da un modello all'altro significa cambiare una sola riga nel campo model. Quindi un'architettura applicativa competente sulla rete Gonka non "sceglie un modello per sempre", ma consente di instradare le richieste tra Kimi K2.6 e MiniMax M2.7 a seconda del tipo di attività: l'inference economico rende tale routing economicamente vantaggioso.

MiniMax M2.7 è un modello MoE del laboratorio MiniMax di Shanghai, aggiunto alla rete Gonka nel maggio 2026 insieme a Kimi K2.6 (il supporto è stato incluso nell'aggiornamento del protocollo v0.2.13, proposal #54); verso la fine di maggio l'inference pubblico è stato aperto a tutti. Nella rete Gonka il modello lavora con un contesto di 200 000 token e un limite di output di 8 192 token per nodo con ~320 GB di VRAM. Tramite il gateway di JoinGonka è disponibile tramite API compatibile con OpenAI; l'identificatore del modello è MiniMaxAI/MiniMax-M2.7. La serie M è storicamente forte per l'efficiente attention e il long context.

← Kimi K2.6: il secondo modello della rete Gonka

Vuoi saperne di più?

Esplora altre sezioni o inizia a guadagnare GNK subito.

Prova MiniMax M2.7 tramite Gateway →