Seções da Base de Conhecimento ▾
Para Iniciantes
Para Investidores
- De onde vem o valor do token GNK
- Gonka vs Concorrentes: Render, Akash, io.net
- Os Libermans: da biofísica à IA descentralizada
- Tokenomics de GNK
- Riscos e perspectivas da Gonka: análise objetiva
- Gonka vs Render Network: comparação detalhada
- Gonka vs Akash: inferência de IA vs contêineres
- Gonka vs io.net: inferência vs marketplace de GPU
- Gonka vs Bittensor: Uma Comparação Detalhada de Duas Abordagens para IA
- Gonka vs Flux: Duas Abordagens para Mineração Útil
- Governança em Gonka: como uma rede descentralizada é gerenciada
Técnico
- Arquitetura da Rede Gonka: Sprint, Agentes de Transferência, DiLoCo
- Desenvolvedores: Como Ganhar GNK
- Auto-hospedagem: Guia passo a passo
- Escolha da GPU para Gonka: recomendações de hardware
- Qwen3-235B: o modelo que Gonka mina
- Kimi K2.6: o segundo modelo da rede Gonka
- MiniMax M2.7: o terceiro modelo da rede Gonka
Análises
- Gonka — Linux para a era da IA
- Killer Switch: por que a IA descentralizada é necessária
- Combustível, não ouro – do ouro digital ao combustível da IA
- Prova de Trabalho Útil: Um Guia Completo para Mineração Útil
- A Projeção de Perdas de US$ 112 Bilhões – A Falência Oculta da Big Tech
- Projetos DePIN 2026: análise completa e comparação
Ferramentas
- Cursor + Gonka AI — LLM barato para codificação
- Claude Code + Gonka AI — LLM para terminal
- OpenClaw + Gonka AI — agentes AI acessíveis
- OpenCode + Gonka AI — AI grátis para código
- Continue.dev + Gonka AI — AI para VS Code/JetBrains
- Cline + Gonka AI — agente AI no VS Code
- Aider + Gonka AI — programação em par com AI
- LangChain + Gonka AI — aplicativos AI por uma fração do custo
- n8n + Gonka AI — automação com AI barata
- Open WebUI + Gonka AI — seu próprio ChatGPT
- LibreChat + Gonka AI — ChatGPT de código aberto
- API início rápido — curl, Python, TypeScript
- JoinGonka Gateway — Visão geral completa
- Management Keys — SaaS na Gonka
- A API de IA mais barata: comparativo de provedores 2026
- Limite de solicitações do Cursor Pro atingido — análise real e alternativa barata
- Alternativa mais barata para o Claude Code — análise de fatura e troca
- Cline queimou dólares — por que o agente queima dinheiro
- OpenClaw muito caro — por que o agente queima tokens e como economizar
- Alternativa mais barata ao OpenRouter — comparação vs JoinGonka Gateway
Tecnologia
MiniMax M2.7: o terceiro modelo da rede Gonka
Na primavera de 2026, a rede Gonka transformou-se de um modelo único para um modelo múltiplo. Primeiro, Kimi K2.6 foi adicionado ao carro-chefe Qwen3-235B, e no final de maio de 2026, o terceiro modelo, MiniMax M2.7 do laboratório chinês MiniMax. Este é o primeiro momento na história da rede em que ela atende a três grandes modelos de linguagem independentes simultaneamente.
Vamos analisar o que é MiniMax M2.7, quem está por trás do seu desenvolvimento, quais são as suas características específicas na rede Gonka, como ela difere dos dois modelos já operacionais e como acessá-la através da nossa API Gateway usando o protocolo compatível com OpenAI.
O que é MiniMax M2.7 e quem está por trás do modelo
MiniMax M2.7 é um Large Language Model (LLM) da empresa MiniMax, sediada em Xangai. A MiniMax foi fundada em 2021 por uma equipe de pesquisadores liderada por Yan Junjie (anteriormente na SenseTime) e rapidamente se tornou um dos principais laboratórios de IA da China. A empresa atraiu financiamento da Alibaba, Tencent e HongShan — o mesmo círculo de investidores estratégicos que apoia outros “tigres de IA chineses”, incluindo Moonshot AI, desenvolvedora de Kimi K2.6.
Além dos modelos de linguagem pura, a MiniMax é conhecida por produtos de consumo: assistentes de chat Talkie e Hailuo, e um dos geradores de vídeo mais proeminentes da indústria. Mas para a rede Gonka, a linha de modelos de texto da série M — sucessores dos modelos abab anteriores — é importante.
A principal característica arquitetônica da série M é a aposta em um mecanismo de atenção eficiente. Se os modelos grandes anteriores usavam atenção quadrática clássica (o custo computacional cresce proporcionalmente ao quadrado do comprimento do contexto), a MiniMax foi uma das primeiras a lançar uma atenção linear híbrida em acesso aberto. Isso permite processar sequências muito longas sem um crescimento explosivo do custo computacional — uma marca registrada histórica da linha. Assim como Qwen3-235B com Kimi K2.6, o modelo é construído sobre a arquitetura MoE (Mixture of Experts): centenas de bilhões de parâmetros “no papel”, mas em cada consulta apenas uma pequena parte deles é ativada, o que reduz radicalmente o custo da inferência.
Na rede Gonka, o modelo é identificado como MiniMaxAI/MiniMax-M2.7 — esta é a string a ser passada no campo model da requisição à API. A versão M2.7 é a última iteração da série M no momento da publicação do artigo.
Características do MiniMax M2.7 na rede Gonka
É importante distinguir entre as características do modelo "pronto para uso" e as características com as quais ele é implantado em uma rede específica. Quando o modelo opera na rede descentralizada Gonka, seus parâmetros de trabalho são definidos pela configuração de inferência vLLM nos hosts de GPU, e não apenas pela arquitetura do modelo. Aqui estão os valores reais retornados pelo nosso Gateway:
- Janela de contexto: 131 072 tokens (cerca de 100 000 palavras). Esta é a configuração da sub-rede na rede Gonka. A arquitetura MiniMax em si suporta um contexto substancialmente mais longo, mas o teto prático em cada momento é definido pela configuração de inferência nos hosts.
- Saída máxima: 4096 tokens por resposta. Este número foi medido empiricamente – por uma solicitação com geração forçada longa que atingiu o limite (finish_reason: length). Para comparação, para Qwen3-235B este limite é de 8192, para Kimi K2.6 é de 3072 tokens. Isso não é um limite do próprio modelo, mas uma configuração da sub-rede vLLM.
- Requisito de VRAM do host: cerca de 320 GB de VRAM por nó. Este é um requisito típico para um modelo MoE grande na quantização FP8 – os mesmos 320 GB são necessários para Qwen3-235B e Kimi K2.6. Na prática, isso significa várias GPUs da classe H100/H200 combinadas em um único nó.
O preço da inferência na rede Gonka não depende da escolha do modelo e é determinado pelos parâmetros da rede: através do JoinGonka Gateway, o MiniMax M2.7 está disponível pela mesma taxa que Qwen e Kimi. O preço unificado é uma consequência do fato de que a rede se baseia em um cálculo único de custo por trabalho computacional, e não no preço de um fornecedor específico.
MiniMax M2.7, Qwen3-235B e Kimi K2.6 — comparação dos três modelos Gonka
Pela primeira vez, o usuário da rede Gonka tem uma escolha de três modelos carro-chefe, e todos os três estão disponíveis através de uma interface OpenAI-compatível única, JoinGonka Gateway. A comparação abaixo ajuda a entender não “qual é o melhor”, mas para qual perfil de tarefas cada um é otimizado.
| Característica | MiniMax M2.7 | Qwen3-235B | Kimi K2.6 |
|---|---|---|---|
| Fabricante | MiniMax (Xangai) | Alibaba Cloud (Hangzhou) | Moonshot AI (Pequim) |
| Arquitetura | MoE + atenção linear | MoE (235B/22B ativos) | MoE |
| Contexto na Gonka | 131 072 tokens | 131 072 tokens | 131 072 tokens |
| Saída Máx. | 4096 tokens | 8192 tokens | 3072 tokens |
| Força histórica | Contexto longo, atenção eficiente | Multilinguismo (119 idiomas), tool calling | Raciocínio, contexto longo |
| Identificador API | MiniMaxAI/MiniMax-M2.7 | Qwen/Qwen3-235B-A22B-Instruct-2507-FP8 | moonshotai/Kimi-K2.6 |
| Status na rede | Lançado através da atualização v0.2.13 (maio de 2026) | Estável desde agosto de 2025 | Lançado através de DevShards (maio de 2026) |
Uma ressalva importante sobre os benchmarks em 2026: a diferença entre os modelos open-weights de ponta em testes públicos diminuiu para uma margem de poucos pontos percentuais, e essa diferença muitas vezes está dentro da margem de erro estatístico dos próprios benchmarks. Para o trabalho prático, o que importa não é o lugar absoluto no ranking MMLU, mas a natureza da tarefa: a duração do contexto, a complexidade das cadeias lógicas, o idioma necessário, a presença de tool calling.
Orientação prática: para tarefas com documentos muito longos e processamento de grandes volumes de texto em streaming, faz sentido testar o MiniMax M2.7 — a atenção eficiente da sua série é historicamente otimizada para tais cenários. Para trabalho multilíngue universal e tool calling estável em produção, a opção comprovada é o Qwen3-235B. Para tarefas de raciocínio com lógica complexa — Kimi K2.6. A melhor estratégia em produção é manter os três modelos no código e alternar entre eles com um único parâmetro model sem alterar a arquitetura da aplicação.
Como a Gonka lançou o terceiro modelo: atualização v0.2.13
A adição do MiniMax M2.7 não é um "upload de arquivo para o servidor", mas o resultado de uma atualização de rede que passou por votação on-chain. O suporte ao modelo foi incluído no lançamento do protocolo v0.2.13, aprovado pela proposta #54: foi aceito em 21 de maio de 2026 (cerca de 63% dos votos "a favor") e ativado em uma altura de bloco definida. Este é o mesmo mecanismo de governança através do qual a rede aprova quaisquer mudanças significativas — desde tarifas até novos modelos.
A multimodalidade para uma rede descentralizada é um passo fundamental. Uma rede vinculada a um único modelo é fundamentalmente frágil: o lançamento de uma nova versão do modelo se transforma em uma crise de migração, e qualquer falha do único modelo derruba todo o serviço. Uma rede capaz de manter vários modelos simultaneamente evolui suavemente: novos modelos são adicionados como "pistas" adicionais, os antigos continuam funcionando e os hosts de GPU têm a opção de o que atender. Tecnicamente, cada modelo vive em seu próprio shard da rede — este mesmo mecanismo (DevShards) foi usado anteriormente para lançar Kimi K2.6.
Uma nuance separada das etapas iniciais: pode haver um atraso entre "o modelo apareceu na lista da rede" e "o modelo está disponível para todos os clientes". Inicialmente, a inferência do MiniMax M2.7 no modo broker era acessível apenas a chaves privilegiadas e retornava um erro para requisições normais — uma fase normal de amadurecimento. Até o final de maio de 2026, o acesso público foi aberto, e o modelo ficou disponível para todos os clientes do Gateway. Mais detalhes sobre como a rede funciona e por que os modelos são lançados dessa forma estão no artigo sobre a arquitetura da rede Gonka.
Como usar o MiniMax M2.7 através do JoinGonka Gateway
A maneira mais direta é através do JoinGonka API Gateway. Como o Gateway fornece uma API compatível com OpenAI, o mesmo código que funciona com GPT, Claude, Qwen ou Kimi, começará a funcionar com MiniMax depois de alterar o valor do campo model.
Um exemplo mínimo via curl:
curl https://gate.joingonka.ai/v1/chat/completions \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "MiniMaxAI/MiniMax-M2.7",
"messages": [
{"role": "user", "content": "Кратко объясни, что такое линейный attention"}
]
}'A mesma requisição em Python através da biblioteca openai:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://gate.joingonka.ai/v1",
)
response = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.7",
messages=[{"role": "user", "content": "Привет, MiniMax"}],
)
print(response.choices[0].message.content)Streaming (Server-Sent Events) — para interfaces interativas onde a resposta é exibida à medida que é gerada:
stream = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.7",
messages=[{"role": "user", "content": "Напиши короткое эссе про длинный контекст"}],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)Ao registrar-se no JoinGonka Gateway, você recebe 10 milhões de tokens gratuitos para testar qualquer um dos modelos da rede — isso é suficiente para comparar os três modelos em suas próprias tarefas.
Compatibilidade com ferramentas de desenvolvimento: tudo o que funciona com a API do OpenAI também funciona com MiniMax via Gateway. Basta mudar o parâmetro model:
- Cursor: nas configurações de Custom Model, especifique
MiniMaxAI/MiniMax-M2.7 - Claude Code, Cline, Continue.dev: o nome do modelo no arquivo de configuração
- LangChain, n8n: o parâmetro
modelao inicializar o cliente
A lista atual de modelos está sempre disponível no endpoint GET /v1/models — de onde é conveniente puxá-la dinamicamente para que a UI do seu aplicativo mostre o conjunto mais recente. Se a resposta for 429 too many concurrent requests — fase normal para um modelo novo no início do crescimento da rede: repita a requisição em alguns segundos.
Quando escolher MiniMax M2.7 — cenários práticos
A disponibilidade de três modelos em uma única rede é valiosa, pois diferentes ferramentas podem ser escolhidas para diferentes tarefas, sem mudar o provedor ou o código de integração. Aqui estão os cenários onde faz sentido começar a testar com o MiniMax M2.7.
Análise de documentos longos. Se a tarefa é sumarizar contratos, analisar documentação técnica, processar grandes textos jurídicos ou financeiros, a atenção eficiente da série M é historicamente otimizada para manter um contexto longo sem um aumento drástico de custo. Transfira o documento inteiro em uma única requisição e peça ao modelo para trabalhar com todo o volume de uma vez, e não em partes.
RAG e trabalho com bases de conhecimento. Em cenários de recuperação aumentada, onde dezenas de fragmentos de uma base vetorial são misturados no contexto, a capacidade do modelo de manter muitos pedaços de texto heterogêneos afeta diretamente a qualidade da resposta. Este é um nicho natural para modelos com contexto longo.
Processamento de transcrições e logs. Transcrições de chamadas, longos diálogos de suporte, logs de fluxo — são tarefas onde o volume de entrada é grande, e a resposta geralmente é curta. Aqui, o limite de saída de 4096 tokens não atrapalha: entra muito, sai um resumo ou fatos extraídos.
Quando escolher outro modelo. Se sua aplicação precisa de uma resposta muito longa em uma única requisição (um documento gerado grande, um pedaço de código volumoso), lembre-se do teto de saída de 4096 tokens — para Qwen3-235B ele é o dobro (8192). Se o tool calling nativo e estável em produção for crucial — Qwen3-235B ainda é o mais testado. Para tarefas com raciocínio complexo em várias etapas, vale a pena comparar as respostas com Kimi K2.6. Conselho universal: execute o mesmo conjunto de suas requisições reais através dos três modelos e compare os resultados — os 10 milhões de tokens gratuitos no registro serão suficientes para um teste comparativo completo.
Tecnicamente, alternar entre modelos é mudar uma linha no campo model. Portanto, uma arquitetura de aplicativo inteligente na rede Gonka não "escolhe um modelo para sempre", mas permite rotear as requisições entre Qwen, Kimi e MiniMax dependendo do tipo de tarefa — a inferência barata torna esse roteamento economicamente vantajoso.
Quer saber mais?
Explore outras seções ou comece a ganhar GNK agora mesmo.
Experimente MiniMax M2.7 via Gateway →