MiniMax M2.7: modelo da rede Gonka

Na primavera de 2026, a rede Gonka passou de unimodelo para multimodelo. Primeiro, o Kimi K2.6 foi adicionado ao carro-chefe Qwen3-235B e, no final de maio de 2026, o MiniMax M2.7, do laboratório chinês MiniMax. Mais tarde, o Qwen3-235B foi removido da rede e, hoje, a Gonka atende dois modelos simultaneamente — Kimi K2.6 e MiniMax M2.7.

Vamos analisar o que é o MiniMax M2.7, quem está por trás do seu desenvolvimento, quais são suas características especificamente na rede Gonka, como ele se difere do segundo modelo ativo da rede — Kimi K2.6 — e como acessá-lo através do nosso API Gateway pelo protocolo compatível com OpenAI.

O que é MiniMax M2.7 e quem está por trás do modelo

MiniMax M2.7 é um grande modelo de linguagem (LLM) da empresa MiniMax, sediada em Xangai. A MiniMax foi fundada em 2021 por uma equipa de investigadores liderada por Yan Junjie (anteriormente na SenseTime) e rapidamente se tornou um dos principais laboratórios de IA da China. A empresa atraiu financiamento da Alibaba, Tencent e HongShan – o mesmo círculo de investidores estratégicos que apoia outros “tigres da IA chineses”, incluindo a Moonshot AI, desenvolvedora de Kimi K2.6.

Além dos modelos de linguagem pura, a MiniMax é conhecida pelos seus produtos de consumo: assistentes de chat Talkie e Hailuo, bem como um dos geradores de vídeo mais notáveis da indústria. Mas para a rede Gonka, a linha de modelos de texto da série M – sucessores dos modelos abab anteriores – é particularmente importante.

A principal característica arquitetônica da série M é a aposta em um mecanismo de atenção eficiente. Se os modelos grandes anteriores usavam a atenção quadrática clássica (o custo computacional cresce proporcionalmente ao quadrado do comprimento do contexto), a MiniMax foi uma das primeiras a disponibilizar uma atenção linear híbrida de código aberto. Isso permite processar sequências muito longas sem um crescimento explosivo do custo computacional – uma marca registrada histórica da linha. Assim como Qwen3-235B e Kimi K2.6, o modelo é construído na arquitetura MoE (Mixture of Experts): centenas de bilhões de parâmetros “no papel”, mas em cada consulta apenas uma pequena parte deles é ativada, o que reduz drasticamente o custo de inferência.

Na rede Gonka, o modelo é identificado como MiniMaxAI/MiniMax-M2.7 – esta é a string que deve ser passada no campo model da solicitação de API. A versão M2.7 é a última iteração da série M no momento da publicação do artigo.

Características do MiniMax M2.7 na rede Gonka

É importante distinguir as características do modelo "out-of-the-box" e as características com as quais ele é implantado em uma rede específica. Quando o modelo opera na rede descentralizada Gonka, seus parâmetros operacionais são definidos pela configuração de vLLM-inferenced no lado dos hosts GPU, e não apenas pela arquitetura do modelo. Aqui estão os valores reais que nosso Gateway entrega:

Janela de contexto: 200 000 tokens (cerca de 150 000 palavras). Esta é a configuração de subnet na rede Gonka. A própria arquitetura MiniMax suporta um contexto significativamente mais longo, mas o teto prático em cada momento é definido pela configuração de inferenced nos hosts.
Saída máxima: 8 192 tokens por resposta. Este número foi medido empiricamente via solicitação com geração longa forçada, que atingiu o limite (finish_reason: length). Atualmente, este teto é o mesmo para todos os modelos da rede: até 8 192 tokens. Isto não é um limite do modelo em si, mas uma configuração do subnet vLLM.
Requisito de VRAM do host: cerca de 320 GB de VRAM por nó. Este é um requisito típico para um grande modelo MoE em quantização FP8 — os mesmos 320 GB são necessários para o Kimi K2.6. Na prática, isso significa várias GPUs de classe H100/H200 combinadas em um único nó.

O preço de inferenced na rede Gonka não depende da escolha do modelo e é determinado por parâmetros de rede: através do JoinGonka Gateway, o MiniMax M2.7 está disponível na mesma taxa que o Kimi K2.6. Este preço unificado é uma consequência do fato de a rede ser baseada em um cálculo único de custo por trabalho computacional, e não em uma tabela de preços de um fornecedor específico.

MiniMax M2.7 e Kimi K2.6 — comparação de modelos Gonka

O usuário da rede Gonka tem a escolha entre dois modelos carro-chefe, e ambos estão disponíveis através de uma interface única compatível com OpenAI: o JoinGonka Gateway. A comparação abaixo ajuda a entender não qual é "melhor", mas para qual perfil de tarefa cada um é otimizado.

Característica	MiniMax M2.7	Kimi K2.6
Fabricante	MiniMax (Xangai)	Moonshot AI (Pequim)
Arquitetura	MoE + atenção linear	MoE
Contexto em Gonka	200 000 tokens	200 000 tokens
Saída máx.	8 192 tokens	8 192 tokens
Força histórica	Contexto longo, atenção eficiente	Raciocínio, contexto longo
Identificador API	`MiniMaxAI/MiniMax-M2.7`	`moonshotai/Kimi-K2.6`
Status na rede	Lançado via atualização v0.2.13 (maio de 2026)	Lançado via DevShards (maio de 2026)

Uma observação importante sobre benchmarks em 2026: a lacuna entre os principais modelos open-weights em testes públicos diminuiu para unidades percentuais, e essa diferença muitas vezes fica dentro da margem de erro estatístico dos próprios benchmarks. Para o trabalho prático, o que importa não é a posição absoluta no ranking MMLU, mas a natureza da tarefa: comprimento do contexto, complexidade das cadeias lógicas, idioma necessário, existência de tool calling.

Orientação prática: para tarefas com documentos muito longos e processamento em streaming de grandes volumes de texto, faz sentido testar o MiniMax M2.7 — a atenção eficiente de sua série é historicamente adaptada para tais cenários. Para tarefas de raciocínio com lógica complexa e contexto longo, vale a pena comparar as respostas com o Kimi K2.6. A melhor estratégia em produção é manter ambos os modelos no código e alternar entre eles com um parâmetro model sem alterar a arquitetura da aplicação.

Como a Gonka lançou o MiniMax M2.7: atualização v0.2.13

A adição do MiniMax M2.7 não é um "upload de arquivo para o servidor", mas o resultado de um upgrade de rede que passou por uma votação on-chain. O suporte ao modelo foi incluído na versão do protocolo v0.2.13, aprovada pela proposta #54: foi aceita em 21 de maio de 2026 (cerca de 63% dos votos a favor) e ativada em uma determinada altura de bloco. Este é o mesmo mecanismo de governance pelo qual a rede adota qualquer mudança significativa — de tarifas a novos modelos.

A multimodalidade para uma rede descentralizada é um passo fundamental. Uma rede vinculada a um único modelo é fundamentalmente frágil: o lançamento de uma nova versão do modelo se transforma em uma crise de migração, e qualquer falha do modelo único derruba todo o serviço. Uma rede capaz de manter vários modelos simultaneamente evolui de forma suave: novos modelos são adicionados como "trilhas" extras, os antigos continuam funcionando, e os GPU-hosts obtêm a escolha do que atender. Tecnicamente, cada modelo vive em seu próprio shard de rede — este mesmo mecanismo (DevShards) foi usado anteriormente para executar o Kimi K2.6.

Um matiz das etapas iniciais: pode haver um atraso entre "o modelo apareceu na lista da rede" e "o modelo está aberto para todos os clientes". Inicialmente, o inferenced do MiniMax M2.7 em modo broker estava disponível apenas para chaves privilegiadas e retornava erro para solicitações comuns — uma fase normal de teste. No final de maio de 2026, o acesso público foi aberto e o modelo tornou-se disponível para todos os clientes do Gateway. Mais detalhes sobre como a rede funciona e por que os modelos são lançados dessa forma estão no artigo sobre a arquitetura da rede Gonka.

O mesmo MiniMax M2.7 via OpenRouter custa $0.279/$1.20 por 1M, contra $0.003/$0.009 no JoinGonka.

Como usar o MiniMax M2.7 através do JoinGonka Gateway

O caminho mais direto é através do JoinGonka API Gateway. Como o Gateway fornece uma API compatível com OpenAI, o mesmo código que funciona com GPT, Claude ou Kimi começará a funcionar com o MiniMax após alterar o valor do campo model.

Exemplo mínimo via curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Explique brevemente o que é atenção linear"}
    ]
  }'

A mesma requisição em Python via biblioteca openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Olá, MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) — para interfaces interativas, onde a resposta é exibida à medida que é gerada:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Escreva um breve ensaio sobre o contexto longo"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Ao se registrar no JoinGonka Gateway, você recebe 10 milhões de tokens gratuitos para testar quaisquer modelos da rede — isso é suficiente para comparar ambos os modelos da rede em suas próprias tarefas.

Compatibilidade com ferramentas de desenvolvimento: tudo o que funciona com OpenAI API também funciona com o MiniMax através do Gateway. Basta alterar o parâmetro model:

Cursor: nas configurações de Custom Model, indique MiniMaxAI/MiniMax-M2.7
Claude Code, Cline, Continue.dev: nome do modelo no config
LangChain, n8n: parâmetro model ao inicializar o cliente

A lista atualizada de modelos está sempre disponível no endpoint GET /v1/models — de lá é conveniente buscá-la dinamicamente para que a interface da sua aplicação exiba o conjunto atualizado. Se a resposta for 429 too many concurrent requests — é uma fase normal para um novo modelo no estágio inicial de crescimento da rede: tente repetir a requisição após alguns segundos.

Quando escolher MiniMax M2.7 — cenários práticos

Ter dois modelos na mesma rede é valioso porque você pode escolher diferentes ferramentas para tarefas diferentes, sem trocar de provedor ou alterar o código de integração. Aqui estão cenários onde faz sentido começar os testes justamente com o MiniMax M2.7.

Análise de documentos extensos. Se a tarefa for sumarização de contratos, análise de documentação técnica, processamento de grandes textos jurídicos ou financeiros, o mecanismo de atenção eficiente da série M é historicamente otimizado para manter contextos longos sem um aumento drástico de custo. Envie o documento na íntegra em uma única requisição e peça ao modelo para trabalhar com o volume total, em vez de processar em partes.

RAG e trabalho com bases de conhecimento. Em cenários de retrieval-augmented, onde dezenas de fragmentos de uma base vetorial são mesclados ao contexto, a capacidade do modelo de reter muitos fragmentos heterogêneos de texto afeta diretamente a qualidade da resposta. Este é um nicho natural para modelos de contexto longo.

Processamento de transcrições e logs. Transcrições de reuniões, diálogos longos de suporte, logs — tarefas onde o volume de entrada é grande, mas a resposta geralmente é curta. Aqui, o limite de saída de 8 192 tokens não atrapalha: a entrada é grande, a saída é um resumo ou fatos extraídos.

Quando escolher outro modelo. Atualmente, todos os modelos da rede entregam até 8 192 tokens em uma única resposta; portanto, se sua aplicação precisa de uma resposta muito longa em uma requisição (um documento grande ou um trecho extenso de código), considere esse limite global na arquitetura e divida a geração em partes. Para tarefas com raciocínios complexos de várias etapas, vale comparar as respostas com o Kimi K2.6. Um conselho universal: rode o mesmo conjunto de suas requisições reais em ambos os modelos e compare os resultados — os 10 milhões de tokens gratuitos no registro bastam para um teste comparativo completo.

Tecnicamente, alternar entre modelos significa mudar uma linha no campo model. Portanto, uma arquitetura bem feita de uma aplicação na rede Gonka não «seleciona um modelo para sempre», mas sim permite rotear requisições entre o Kimi K2.6 e o MiniMax M2.7 dependendo do tipo de tarefa — o inferência barato torna esse roteamento economicamente vantajoso.

MiniMax M2.7 — modelo MoE do laboratório de Xangai MiniMax, adicionado à rede Gonka em maio de 2026 junto com o Kimi K2.6 (o suporte entrou no upgrade de protocolo v0.2.13, proposta #54); no final de maio, a inferência pública foi aberta para todos. Na rede Gonka, o modelo opera com contexto de 200 000 tokens e um limite de saída de 8 192 tokens por nó com ~320 GB de VRAM. Através do JoinGonka Gateway, está disponível por API compatível com OpenAI; o identificador do modelo é MiniMaxAI/MiniMax-M2.7. A série M é historicamente forte em atenção eficiente e contexto longo.

← Kimi K2.6: o segundo modelo da rede Gonka

Quer saber mais?

Explore outras seções ou comece a ganhar GNK agora mesmo.

Experimentar MiniMax M2.7 via Gateway →