Sezioni dell'archivio conoscenza ▾

Strumenti

Tecnologia

MiniMax M2.7: il terzo modello della rete Gonka

Nella primavera del 2026, la rete Gonka è passata da un modello singolo a un modello multiplo. Inizialmente, al fiore all'occhiello Qwen3-235B si è aggiunto Kimi K2.6, e alla fine di maggio 2026 — il terzo modello, MiniMax M2.7 dal laboratorio cinese MiniMax. Questo è il primo momento nella storia della rete in cui serve contemporaneamente tre grandi modelli linguistici indipendenti.

Analizziamo cos'è MiniMax M2.7, chi c'è dietro il suo sviluppo, quali sono le sue caratteristiche nella rete Gonka, in cosa si differenzia dai due modelli già operativi e come accedervi tramite il nostro API Gateway utilizzando il protocollo compatibile con OpenAI.

Cos'è MiniMax M2.7 e chi c'è dietro il modello

MiniMax M2.7 è un grande modello linguistico (LLM) dell'azienda MiniMax, con sede a Shanghai. MiniMax è stata fondata nel 2021 da un team di ricercatori guidati da Yan Junjie (precedentemente in SenseTime) ed è rapidamente entrata a far parte dei principali laboratori di intelligenza artificiale in Cina. L'azienda ha attratto finanziamenti da Alibaba, Tencent e HongShan — lo stesso circolo di investitori strategici che sta dietro ad altri “tigri AI cinesi”, incluso Moonshot AI, lo sviluppatore di Kimi K2.6.

Oltre ai puri modelli linguistici, MiniMax è nota per i prodotti di consumo: gli assistenti di chat Talkie e Hailuo, e uno dei generatori video più notevoli del settore. Ma per la rete Gonka è importante la linea di modelli testuali della serie M — eredi dei precedenti modelli abab.

La caratteristica architettonica principale della serie M è l'enfasi su un meccanismo di attenzione efficiente. Se i primi grandi modelli utilizzavano la classica attenzione quadratica (il costo computazionale cresce proporzionalmente al quadrato della lunghezza del contesto), MiniMax è stata una delle prime a rendere disponibile pubblicamente l'attenzione lineare ibrida. Questo consente di elaborare sequenze molto lunghe senza una crescita esplosiva del costo computazionale — un marchio di fabbrica storico della linea. Come Qwen3-235B e Kimi K2.6, il modello è costruito sull'architettura MoE (Mixture of Experts): centinaia di miliardi di parametri “sulla carta”, ma per ogni richiesta viene attivata solo una piccola parte di essi, il che riduce radicalmente il costo dell'inferenza.

Nella rete Gonka il modello è identificato come MiniMaxAI/MiniMax-M2.7 — questa è la stringa da passare nel campo model della richiesta API. La versione M2.7 è l'ultima iterazione della serie M al momento della pubblicazione dell'articolo.

Caratteristiche di MiniMax M2.7 nella rete Gonka

È importante distinguere le caratteristiche del modello “out of the box” dalle caratteristiche con cui è distribuito in una rete specifica. Quando il modello opera nella rete decentralizzata Gonka, i suoi parametri di lavoro sono definiti dalla configurazione dell'inferenza vLLM sul lato degli host GPU, e non solo dall'architettura del modello. Ecco i valori effettivi restituiti dal nostro Gateway:

  • Finestra di contesto: 131.072 token (circa 100.000 parole). Questa è la configurazione della subnet nella rete Gonka. L'architettura MiniMax stessa supporta un contesto significativamente più lungo, ma il limite pratico in ogni momento è dato dall'impostazione dell'inferenza sugli host.
  • Output massimo: 4.096 token per singola risposta. Questa cifra è stata misurata empiricamente — con una richiesta con generazione lunga forzata che ha raggiunto il limite (finish_reason: length). Per confronto, per Qwen3-235B questo limite è 8.192, per Kimi K2.6 è 3.072 token. Questo non è un limite del modello stesso, ma una configurazione del vLLM-subnet.
  • Requisito VRAM dell'host: circa 320 GB di VRAM per nodo. Questo è un requisito tipico per un grande modello MoE nella quantizzazione FP8 — gli stessi 320 GB sono necessari per Qwen3-235B e Kimi K2.6. In pratica, ciò significa diverse GPU di classe H100/H200 unite in un unico nodo.

Il prezzo dell'inferenza nella rete Gonka non dipende dalla scelta del modello ed è determinato dai parametri di rete: tramite JoinGonka Gateway MiniMax M2.7 è disponibile allo stesso costo di Qwen e Kimi. Il prezzo unificato è una conseguenza del fatto che la rete si basa su un unico calcolo del costo per il lavoro computazionale, e non sul listino di un fornitore specifico.

MiniMax M2.7, Qwen3-235B e Kimi K2.6 — confronto dei tre modelli Gonka

Per la prima volta, l'utente della rete Gonka ha una scelta tra tre modelli di punta, e tutti e tre sono accessibili tramite un'interfaccia compatibile con OpenAI unificata JoinGonka Gateway. Il confronto seguente aiuta a capire non “quale sia il migliore”, ma per quale profilo di attività ciascuno sia ottimizzato.

CaratteristicaMiniMax M2.7Qwen3-235BKimi K2.6
ProduttoreMiniMax (Shanghai)Alibaba Cloud (Hangzhou)Moonshot AI (Pechino)
ArchitetturaMoE + attenzione lineareMoE (235B/22B attivi)MoE
Contesto in Gonka131.072 token131.072 token131.072 token
Max. output4.096 token8.192 token3.072 token
Forza storicaContesto lungo, attenzione efficienteMultilinguismo (119 lingue), tool callingRagionamento, contesto lungo
Identificatore APIMiniMaxAI/MiniMax-M2.7Qwen/Qwen3-235B-A22B-Instruct-2507-FP8moonshotai/Kimi-K2.6
Stato nella reteLanciato tramite aggiornamento v0.2.13 (maggio 2026)Stabile da agosto 2025Lanciato tramite DevShards (maggio 2026)

Una nota importante sui benchmark nel 2026: il divario tra i modelli top open-weights nei test pubblici si è ridotto a pochi punti percentuali, e questa differenza spesso rientra nel margine di errore statistico dei benchmark stessi. Per il lavoro pratico, ciò che conta non è la posizione assoluta nella classifica MMLU, ma la natura del compito: la lunghezza del contesto, la complessità delle catene logiche, la lingua richiesta, la disponibilità di tool calling.

Orientamento pratico: per compiti con documenti molto lunghi e l'elaborazione in streaming di grandi volumi di testo, ha senso testare MiniMax M2.7 — l'attenzione efficiente della sua serie è storicamente ottimizzata per tali scenari. Per un lavoro multilingue universale e un tool calling stabile in produzione, l'opzione collaudata è Qwen3-235B. Per compiti di ragionamento con logica complessa — Kimi K2.6. La migliore strategia in produzione è mantenere tutti e tre i modelli nel codice e passare dall'uno all'altro con un singolo parametro model senza modificare l'architettura dell'applicazione.

Come Gonka ha lanciato il terzo modello: l'aggiornamento v0.2.13

L'aggiunta di MiniMax M2.7 non è un “caricamento di un file sul server”, ma il risultato di un aggiornamento di rete, passato attraverso una votazione on-chain. Il supporto del modello è stato incluso nel rilascio del protocollo v0.2.13, approvato dalla proposta #54: è stata accettata il 21 maggio 2026 (circa il 63% dei voti “a favore”) e attivata a un'altezza di blocco impostata. Questo è lo stesso meccanismo di governance attraverso il quale la rete accetta qualsiasi modifica significativa — dalle tariffe ai nuovi modelli.

La multimodalità per una rete decentralizzata è un passo fondamentale. Una rete vincolata a un singolo modello è fondamentalmente fragile: il rilascio di una nuova versione del modello si trasforma in una crisi di migrazione, e qualsiasi guasto dell'unico modello fa crollare l'intero servizio. Una rete in grado di contenere più modelli contemporaneamente si evolve dolcemente: i nuovi modelli vengono aggiunti come “corsie” aggiuntive, i vecchi continuano a funzionare e gli host GPU hanno la scelta di cosa servire. Tecnicamente, ogni modello vive nel suo shard di rete — lo stesso meccanismo (DevShards) è stato precedentemente utilizzato per il lancio di Kimi K2.6.

Una particolare sfumatura delle fasi iniziali: potrebbe esserci un ritardo tra “il modello è apparso nell'elenco della rete” e “il modello è aperto a tutti i clienti”. Inizialmente, l'inferenza di MiniMax M2.7 in modalità broker era disponibile solo per chiavi privilegiate e restituiva un errore per le richieste normali — una normale fase di rodaggio. Entro la fine di maggio 2026 l'accesso pubblico si è aperto e il modello è diventato disponibile per tutti i clienti Gateway. Maggiori dettagli su come è strutturata la rete e perché i modelli vengono lanciati in questo modo — nell'articolo sull'architettura della rete Gonka.

Come usare MiniMax M2.7 tramite JoinGonka Gateway

Il percorso più diretto è tramite JoinGonka API Gateway. Poiché il Gateway fornisce un'API compatibile con OpenAI, lo stesso codice che funziona con GPT, Claude, Qwen o Kimi inizierà a funzionare con MiniMax dopo aver modificato il valore del campo model.

Un esempio minimo tramite curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Spiega brevemente cos'è l'attenzione lineare"}
    ]
  }'

La stessa richiesta in Python tramite la libreria openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Ciao, MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) — per interfacce interattive in cui la risposta viene visualizzata man mano che viene generata:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Scrivi un breve saggio sul contesto lungo"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Registrandoti su JoinGonka Gateway, ricevi 10 milioni di token gratuiti per testare qualsiasi modello di rete — sufficienti per confrontare tutti e tre i modelli sui tuoi compiti.

Compatibilità con gli strumenti di sviluppo: tutto ciò che funziona con OpenAI API funziona anche con MiniMax tramite Gateway. Basta cambiare il parametro model:

L'elenco aggiornato dei modelli è sempre disponibile nell'endpoint GET /v1/models — da lì è comodo estrarlo dinamicamente, in modo che l'interfaccia utente della tua applicazione mostri autonomamente il set più recente. Se la risposta è 429 too many concurrent requests — è una fase normale per un modello nuovo nelle prime fasi di crescita della rete: riprova la richiesta dopo qualche secondo.

Quando scegliere MiniMax M2.7 — scenari pratici

La presenza di tre modelli in una rete è preziosa perché per compiti diversi si possono scegliere strumenti diversi, senza cambiare né il fornitore né il codice di integrazione. Ecco gli scenari in cui ha senso iniziare i test proprio con MiniMax M2.7.

Analisi di documenti lunghi. Se il compito è la riassunto di contratti, l'analisi di documentazione tecnica, l'elaborazione di grandi testi legali o finanziari, l'attenzione efficiente della serie M è storicamente ottimizzata per mantenere un contesto lungo senza un brusco aumento dei costi. Trasferisci l'intero documento in una singola richiesta e chiedi al modello di lavorare con l'intero volume contemporaneamente, anziché a pezzi.

RAG e lavoro con basi di conoscenza. Negli scenari retrieval-augmented, dove nel contesto vengono mescolati decine di frammenti da una base vettoriale, la capacità del modello di mantenere molti pezzi di testo eterogenei influisce direttamente sulla qualità della risposta. Questa è una nicchia naturale per i modelli con contesto lungo.

Elaborazione di trascrizioni e log. Le trascrizioni di chiamate, i lunghi dialoghi di supporto, i log in streaming — compiti in cui il volume di input è elevato, ma la risposta è solitamente breve. Qui il limite di output di 4.096 token non è un ostacolo: l'input è molto, l'output è un riassunto o fatti estratti.

Quando scegliere un altro modello. Se la tua applicazione necessita di una risposta molto lunga in una singola richiesta (un documento generato di grandi dimensioni, un pezzo di codice voluminoso), ricorda il limite di output di 4.096 token — per Qwen3-235B è il doppio (8.192). Se il tool calling nativo stabile in produzione gioca un ruolo chiave — Qwen3-235B è stato testato più a lungo. Per compiti con ragionamenti complessi e multistep, vale la pena confrontare le risposte con Kimi K2.6. Consiglio universale: esegui lo stesso set delle tue richieste reali attraverso tutti e tre i modelli e confronta i risultati — 10 milioni di token gratuiti alla registrazione saranno sufficienti per un test comparativo completo.

Tecnicamente, il passaggio tra i modelli è la modifica di una riga nel campo model. Pertanto, un'architettura di applicazione ben progettata sulla rete Gonka non “sceglie un modello per sempre”, ma consente di instradare le richieste tra Qwen, Kimi e MiniMax a seconda del tipo di compito — l'inferenza a basso costo rende tale instradamento economicamente vantaggioso.

MiniMax M2.7 — il modello MoE del laboratorio di Shanghai MiniMax, è diventato il terzo modello della rete Gonka dopo Qwen3-235B e Kimi K2.6. Il supporto è stato incluso nell'aggiornamento del protocollo v0.2.13 (proposta #54, maggio 2026); entro la fine di maggio, l'inferenza pubblica è stata aperta a tutti. Nella rete Gonka il modello funziona con un contesto di 131.072 token e un limite di output di 4.096 token su un nodo con ~320 GB di VRAM. Tramite JoinGonka Gateway è accessibile tramite API compatibile con OpenAI; l'identificatore del modello è MiniMaxAI/MiniMax-M2.7. La serie M è storicamente forte per l'attenzione efficiente e il contesto lungo.

Vuoi saperne di più?

Esplora altre sezioni o inizia a guadagnare GNK subito.

Prova MiniMax M2.7 tramite Gateway →