Seções da Base de Conhecimento ▾

Ferramentas

Tecnologia

MiniMax M2.7: o terceiro modelo da rede Gonka

Na primavera de 2026, a rede Gonka transformou-se de um modelo único para um modelo múltiplo. Primeiro, Kimi K2.6 foi adicionado ao carro-chefe Qwen3-235B, e no final de maio de 2026, o terceiro modelo, MiniMax M2.7 do laboratório chinês MiniMax. Este é o primeiro momento na história da rede em que ela atende a três grandes modelos de linguagem independentes simultaneamente.

Vamos analisar o que é MiniMax M2.7, quem está por trás do seu desenvolvimento, quais são as suas características específicas na rede Gonka, como ela difere dos dois modelos já operacionais e como acessá-la através da nossa API Gateway usando o protocolo compatível com OpenAI.

O que é MiniMax M2.7 e quem está por trás do modelo

MiniMax M2.7 é um Large Language Model (LLM) da empresa MiniMax, sediada em Xangai. A MiniMax foi fundada em 2021 por uma equipe de pesquisadores liderada por Yan Junjie (anteriormente na SenseTime) e rapidamente se tornou um dos principais laboratórios de IA da China. A empresa atraiu financiamento da Alibaba, Tencent e HongShan — o mesmo círculo de investidores estratégicos que apoia outros “tigres de IA chineses”, incluindo Moonshot AI, desenvolvedora de Kimi K2.6.

Além dos modelos de linguagem pura, a MiniMax é conhecida por produtos de consumo: assistentes de chat Talkie e Hailuo, e um dos geradores de vídeo mais proeminentes da indústria. Mas para a rede Gonka, a linha de modelos de texto da série M — sucessores dos modelos abab anteriores — é importante.

A principal característica arquitetônica da série M é a aposta em um mecanismo de atenção eficiente. Se os modelos grandes anteriores usavam atenção quadrática clássica (o custo computacional cresce proporcionalmente ao quadrado do comprimento do contexto), a MiniMax foi uma das primeiras a lançar uma atenção linear híbrida em acesso aberto. Isso permite processar sequências muito longas sem um crescimento explosivo do custo computacional — uma marca registrada histórica da linha. Assim como Qwen3-235B com Kimi K2.6, o modelo é construído sobre a arquitetura MoE (Mixture of Experts): centenas de bilhões de parâmetros “no papel”, mas em cada consulta apenas uma pequena parte deles é ativada, o que reduz radicalmente o custo da inferência.

Na rede Gonka, o modelo é identificado como MiniMaxAI/MiniMax-M2.7 — esta é a string a ser passada no campo model da requisição à API. A versão M2.7 é a última iteração da série M no momento da publicação do artigo.

Características do MiniMax M2.7 na rede Gonka

É importante distinguir entre as características do modelo "pronto para uso" e as características com as quais ele é implantado em uma rede específica. Quando o modelo opera na rede descentralizada Gonka, seus parâmetros de trabalho são definidos pela configuração de inferência vLLM nos hosts de GPU, e não apenas pela arquitetura do modelo. Aqui estão os valores reais retornados pelo nosso Gateway:

  • Janela de contexto: 131 072 tokens (cerca de 100 000 palavras). Esta é a configuração da sub-rede na rede Gonka. A arquitetura MiniMax em si suporta um contexto substancialmente mais longo, mas o teto prático em cada momento é definido pela configuração de inferência nos hosts.
  • Saída máxima: 4096 tokens por resposta. Este número foi medido empiricamente – por uma solicitação com geração forçada longa que atingiu o limite (finish_reason: length). Para comparação, para Qwen3-235B este limite é de 8192, para Kimi K2.6 é de 3072 tokens. Isso não é um limite do próprio modelo, mas uma configuração da sub-rede vLLM.
  • Requisito de VRAM do host: cerca de 320 GB de VRAM por nó. Este é um requisito típico para um modelo MoE grande na quantização FP8 – os mesmos 320 GB são necessários para Qwen3-235B e Kimi K2.6. Na prática, isso significa várias GPUs da classe H100/H200 combinadas em um único nó.

O preço da inferência na rede Gonka não depende da escolha do modelo e é determinado pelos parâmetros da rede: através do JoinGonka Gateway, o MiniMax M2.7 está disponível pela mesma taxa que Qwen e Kimi. O preço unificado é uma consequência do fato de que a rede se baseia em um cálculo único de custo por trabalho computacional, e não no preço de um fornecedor específico.

MiniMax M2.7, Qwen3-235B e Kimi K2.6 — comparação dos três modelos Gonka

Pela primeira vez, o usuário da rede Gonka tem uma escolha de três modelos carro-chefe, e todos os três estão disponíveis através de uma interface OpenAI-compatível única, JoinGonka Gateway. A comparação abaixo ajuda a entender não “qual é o melhor”, mas para qual perfil de tarefas cada um é otimizado.

CaracterísticaMiniMax M2.7Qwen3-235BKimi K2.6
FabricanteMiniMax (Xangai)Alibaba Cloud (Hangzhou)Moonshot AI (Pequim)
ArquiteturaMoE + atenção linearMoE (235B/22B ativos)MoE
Contexto na Gonka131 072 tokens131 072 tokens131 072 tokens
Saída Máx.4096 tokens8192 tokens3072 tokens
Força históricaContexto longo, atenção eficienteMultilinguismo (119 idiomas), tool callingRaciocínio, contexto longo
Identificador APIMiniMaxAI/MiniMax-M2.7Qwen/Qwen3-235B-A22B-Instruct-2507-FP8moonshotai/Kimi-K2.6
Status na redeLançado através da atualização v0.2.13 (maio de 2026)Estável desde agosto de 2025Lançado através de DevShards (maio de 2026)

Uma ressalva importante sobre os benchmarks em 2026: a diferença entre os modelos open-weights de ponta em testes públicos diminuiu para uma margem de poucos pontos percentuais, e essa diferença muitas vezes está dentro da margem de erro estatístico dos próprios benchmarks. Para o trabalho prático, o que importa não é o lugar absoluto no ranking MMLU, mas a natureza da tarefa: a duração do contexto, a complexidade das cadeias lógicas, o idioma necessário, a presença de tool calling.

Orientação prática: para tarefas com documentos muito longos e processamento de grandes volumes de texto em streaming, faz sentido testar o MiniMax M2.7 — a atenção eficiente da sua série é historicamente otimizada para tais cenários. Para trabalho multilíngue universal e tool calling estável em produção, a opção comprovada é o Qwen3-235B. Para tarefas de raciocínio com lógica complexa — Kimi K2.6. A melhor estratégia em produção é manter os três modelos no código e alternar entre eles com um único parâmetro model sem alterar a arquitetura da aplicação.

Como a Gonka lançou o terceiro modelo: atualização v0.2.13

A adição do MiniMax M2.7 não é um "upload de arquivo para o servidor", mas o resultado de uma atualização de rede que passou por votação on-chain. O suporte ao modelo foi incluído no lançamento do protocolo v0.2.13, aprovado pela proposta #54: foi aceito em 21 de maio de 2026 (cerca de 63% dos votos "a favor") e ativado em uma altura de bloco definida. Este é o mesmo mecanismo de governança através do qual a rede aprova quaisquer mudanças significativas — desde tarifas até novos modelos.

A multimodalidade para uma rede descentralizada é um passo fundamental. Uma rede vinculada a um único modelo é fundamentalmente frágil: o lançamento de uma nova versão do modelo se transforma em uma crise de migração, e qualquer falha do único modelo derruba todo o serviço. Uma rede capaz de manter vários modelos simultaneamente evolui suavemente: novos modelos são adicionados como "pistas" adicionais, os antigos continuam funcionando e os hosts de GPU têm a opção de o que atender. Tecnicamente, cada modelo vive em seu próprio shard da rede — este mesmo mecanismo (DevShards) foi usado anteriormente para lançar Kimi K2.6.

Uma nuance separada das etapas iniciais: pode haver um atraso entre "o modelo apareceu na lista da rede" e "o modelo está disponível para todos os clientes". Inicialmente, a inferência do MiniMax M2.7 no modo broker era acessível apenas a chaves privilegiadas e retornava um erro para requisições normais — uma fase normal de amadurecimento. Até o final de maio de 2026, o acesso público foi aberto, e o modelo ficou disponível para todos os clientes do Gateway. Mais detalhes sobre como a rede funciona e por que os modelos são lançados dessa forma estão no artigo sobre a arquitetura da rede Gonka.

Como usar o MiniMax M2.7 através do JoinGonka Gateway

A maneira mais direta é através do JoinGonka API Gateway. Como o Gateway fornece uma API compatível com OpenAI, o mesmo código que funciona com GPT, Claude, Qwen ou Kimi, começará a funcionar com MiniMax depois de alterar o valor do campo model.

Um exemplo mínimo via curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Кратко объясни, что такое линейный attention"}
    ]
  }'

A mesma requisição em Python através da biblioteca openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Привет, MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) — para interfaces interativas onde a resposta é exibida à medida que é gerada:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Напиши короткое эссе про длинный контекст"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Ao registrar-se no JoinGonka Gateway, você recebe 10 milhões de tokens gratuitos para testar qualquer um dos modelos da rede — isso é suficiente para comparar os três modelos em suas próprias tarefas.

Compatibilidade com ferramentas de desenvolvimento: tudo o que funciona com a API do OpenAI também funciona com MiniMax via Gateway. Basta mudar o parâmetro model:

A lista atual de modelos está sempre disponível no endpoint GET /v1/models — de onde é conveniente puxá-la dinamicamente para que a UI do seu aplicativo mostre o conjunto mais recente. Se a resposta for 429 too many concurrent requests — fase normal para um modelo novo no início do crescimento da rede: repita a requisição em alguns segundos.

Quando escolher MiniMax M2.7 — cenários práticos

A disponibilidade de três modelos em uma única rede é valiosa, pois diferentes ferramentas podem ser escolhidas para diferentes tarefas, sem mudar o provedor ou o código de integração. Aqui estão os cenários onde faz sentido começar a testar com o MiniMax M2.7.

Análise de documentos longos. Se a tarefa é sumarizar contratos, analisar documentação técnica, processar grandes textos jurídicos ou financeiros, a atenção eficiente da série M é historicamente otimizada para manter um contexto longo sem um aumento drástico de custo. Transfira o documento inteiro em uma única requisição e peça ao modelo para trabalhar com todo o volume de uma vez, e não em partes.

RAG e trabalho com bases de conhecimento. Em cenários de recuperação aumentada, onde dezenas de fragmentos de uma base vetorial são misturados no contexto, a capacidade do modelo de manter muitos pedaços de texto heterogêneos afeta diretamente a qualidade da resposta. Este é um nicho natural para modelos com contexto longo.

Processamento de transcrições e logs. Transcrições de chamadas, longos diálogos de suporte, logs de fluxo — são tarefas onde o volume de entrada é grande, e a resposta geralmente é curta. Aqui, o limite de saída de 4096 tokens não atrapalha: entra muito, sai um resumo ou fatos extraídos.

Quando escolher outro modelo. Se sua aplicação precisa de uma resposta muito longa em uma única requisição (um documento gerado grande, um pedaço de código volumoso), lembre-se do teto de saída de 4096 tokens — para Qwen3-235B ele é o dobro (8192). Se o tool calling nativo e estável em produção for crucial — Qwen3-235B ainda é o mais testado. Para tarefas com raciocínio complexo em várias etapas, vale a pena comparar as respostas com Kimi K2.6. Conselho universal: execute o mesmo conjunto de suas requisições reais através dos três modelos e compare os resultados — os 10 milhões de tokens gratuitos no registro serão suficientes para um teste comparativo completo.

Tecnicamente, alternar entre modelos é mudar uma linha no campo model. Portanto, uma arquitetura de aplicativo inteligente na rede Gonka não "escolhe um modelo para sempre", mas permite rotear as requisições entre Qwen, Kimi e MiniMax dependendo do tipo de tarefa — a inferência barata torna esse roteamento economicamente vantajoso.

MiniMax M2.7 é um modelo MoE do laboratório MiniMax de Xangai, tornando-se o terceiro modelo da rede Gonka após Qwen3-235B e Kimi K2.6. O suporte foi incluído na atualização de protocolo v0.2.13 (proposta #54, maio de 2026); até o final de maio, a inferência pública foi aberta a todos. Na rede Gonka, o modelo opera com um contexto de 131 072 tokens e um limite de saída de 4096 tokens por nó com ~320 GB VRAM. Através do JoinGonka Gateway, está disponível via API compatível com OpenAI; o identificador do modelo é MiniMaxAI/MiniMax-M2.7. A série M é historicamente forte em atenção eficiente e contexto longo.

Quer saber mais?

Explore outras seções ou comece a ganhar GNK agora mesmo.

Experimente MiniMax M2.7 via Gateway →