Seções da Base de Conhecimento ▾
Para Iniciantes
Para Investidores
- De onde vem o valor do token GNK
- Gonka vs Concorrentes: Render, Akash, io.net
- Os Libermans: da biofísica à IA descentralizada
- Tokenomics de GNK
- Riscos e perspectivas da Gonka: análise objetiva
- Gonka vs Render Network: comparação detalhada
- Gonka vs Akash: inferência de IA vs contêineres
- Gonka vs io.net: inferência vs marketplace de GPU
- Gonka vs Bittensor: Uma Comparação Detalhada de Duas Abordagens para IA
- Gonka vs Flux: Duas Abordagens para Mineração Útil
- Governança em Gonka: como uma rede descentralizada é gerenciada
Técnico
Análises
- Gonka — Linux para a era da IA
- Killer Switch: por que a IA descentralizada é necessária
- Combustível, não ouro – do ouro digital ao combustível da IA
- Prova de Trabalho Útil: Um Guia Completo para Mineração Útil
- A Projeção de Perdas de US$ 112 Bilhões – A Falência Oculta da Big Tech
- Projetos DePIN 2026: análise completa e comparação
Ferramentas
- Cursor + Gonka AI — LLM barato para codificação
- Claude Code + Gonka AI — LLM para terminal
- OpenClaw + Gonka AI — agentes AI acessíveis
- OpenCode + Gonka AI — AI grátis para código
- Continue.dev + Gonka AI — AI para VS Code/JetBrains
- Cline + Gonka AI — agente AI no VS Code
- Aider + Gonka AI — programação em par com AI
- LangChain + Gonka AI — aplicativos AI por uma fração do custo
- n8n + Gonka AI — automação com AI barata
- Open WebUI + Gonka AI — seu próprio ChatGPT
- LibreChat + Gonka AI — ChatGPT de código aberto
- API início rápido — curl, Python, TypeScript
- JoinGonka Gateway — Visão geral completa
- Management Keys — SaaS na Gonka
- A API de IA mais barata: comparativo de provedores 2026
- Limite de solicitações do Cursor Pro atingido — análise real e alternativa barata
- Alternativa mais barata para o Claude Code — análise de fatura e troca
- Cline queimou dólares — por que o agente queima dinheiro
- OpenClaw muito caro — por que o agente queima tokens e como economizar
- Alternativa mais barata ao OpenRouter — comparação vs JoinGonka Gateway
Tecnologia
Kimi K2.6: o segundo modelo da rede Gonka
O que é Kimi K2.6 da Moonshot AI
Kimi K2.6 é um grande modelo de linguagem (LLM) da série Kimi, desenvolvido pela empresa sediada em Pequim Moonshot AI. Moonshot AI é um dos principais laboratórios de IA da China, fundado em 2023 por uma equipe de pesquisadores liderada por Yang Zhilin. A empresa atraiu financiamento da Alibaba, Tencent e outros grandes investidores e foi incluída na lista dos "tigres de IA chineses" — empresas que ditam o ritmo do desenvolvimento da IA na Ásia.
A série Kimi é conhecida desde 2024. As primeiras versões (K1, K1.5) chamaram imediatamente a atenção pela sua janela de contexto excepcionalmente longa — até 200.000 tokens em uma única solicitação, o que no momento do lançamento era um recorde para modelos disponíveis publicamente. Um contexto longo significa a possibilidade prática de analisar um livro inteiro, uma base de código de tamanho médio ou uma coleção de documentos legais em uma única solicitação. No momento do lançamento do Kimi, essa característica era uma forte vantagem competitiva.
A versão K2 apareceu em 2025 e trouxe um salto arquitetônico fundamental: a transição para MoE (Mixture of Experts). Essa mesma arquitetura é a base de Qwen3-235B e DeepSeek-R1 — tornando-se o padrão de fato para os maiores modelos de 2025-2026. MoE permite ter centenas de bilhões de parâmetros "no total", mas ativar apenas um subconjunto (geralmente 5 a 10%) em cada solicitação, o que reduz radicalmente o custo computacional da inferência com qualidade comparável.
K2.6 é a mais recente iteração da série K2 no momento da redação deste artigo. Das declarações públicas da Moonshot AI, depreende-se que nesta versão foram aprimoradas as capacidades do modelo em raciocínio (raciocínio lógico), geração de código e chamada nativa de ferramentas (tool calling). Na rede Gonka, o modelo é identificado como moonshotai/Kimi-K2.6 — este é o nome que deve ser passado no campo model da requisição da API.
Comparação de Kimi K2.6 e Qwen3-235B
Ambos os modelos representam desenvolvimentos carro-chefe dos maiores laboratórios chineses de IA e ambos estão disponíveis através de uma única interface compatível com OpenAI JoinGonka Gateway. No entanto, eles têm diferentes pontos fortes e legados, o que torna a escolha entre eles não uma questão de "qual é melhor", mas uma questão de "qual se encaixa na tarefa".
| Característica | Kimi K2.6 | Qwen3-235B-A22B |
|---|---|---|
| Fabricante | Moonshot AI (Pequim) | Alibaba Cloud (Hangzhou) |
| Ano de Fundação da Empresa | 2023 | 2009 (Alibaba Cloud) |
| Arquitetura | MoE | MoE (235B total, 22B ativos) |
| Janela de Contexto | Contexto longo (cartão de visita da série Kimi) | 131.072 tokens (~100.000 palavras) |
| Pontos Fortes | Raciocínio, contexto longo, geração de código | Universal, multilingue (119 idiomas), tool calling estável |
| Preço via JoinGonka | $0.001 por 1M de tokens | $0.001 por 1M de tokens |
| Identificador da API | moonshotai/Kimi-K2.6 | Qwen/Qwen3-235B-A22B-Instruct-2507-FP8 |
| Tool calling | Em fase final de ajuste (auto-choice) | Nativo, estável (PR #767) |
| Status na rede Gonka | Lançado via DevShards (maio de 2026) | Estável desde agosto de 2025 |
Nos benchmarks de raciocínio (MATH-500, GSM8K, AIME), a série Kimi K2 historicamente mostra resultados no grupo superior de modelos de peso aberto, competindo com DeepSeek-R1 e modelos estilo o1. Em tarefas de geração de código (HumanEval, MBPP), ambos os modelos mantêm níveis semelhantes. Em multilinguismo e tradução, Qwen3-235B tem uma vantagem devido ao treinamento em 119 idiomas, enquanto Kimi é mais otimizado para chinês e inglês.
Uma observação importante sobre os benchmarks em 2026: a diferença entre os modelos top nos testes públicos diminuiu para unidades percentuais, e essa diferença muitas vezes está dentro da margem de erro estatístico dos próprios benchmarks. Para o trabalho prático, o que importa não é "quem é 2% melhor no MMLU", mas a natureza das tarefas: que contexto você está passando para o modelo, quão complexas são as cadeias lógicas, se uma longa história de diálogo é necessária, quais idiomas são usados. Portanto, a tabela acima não classifica os modelos — ela ajuda a entender rapidamente para qual perfil de tarefas cada um deles é otimizado.
Para uma escolha prática: se a tarefa exige um contexto longo (análise de documentos extensos, leitura de uma base de código volumosa, diálogos longos com histórico) ou tarefas de raciocínio complexas, deve-se começar com Kimi K2.6. Para tarefas universais, traduções, trabalho multilíngue e tool calling estável em produção, Qwen3-235B ainda parece ser uma opção mais comprovada, pois funciona há mais tempo na rede Gonka. Uma boa estratégia em produção é ter ambos os modelos no seu código: uma troca rápida através do parâmetro model permite alternar entre eles dependendo da tarefa, sem alterar a arquitetura da aplicação.
DevShards: como Gonka lançou o segundo modelo
Até a primavera de 2026, toda a rede Gonka atendia a exatamente um modelo — Qwen3-235B. Do ponto de vista arquitetônico, essa foi uma decisão sensata: a inferência distribuída através de DiLoCo exige que todos os participantes da rede mantenham o mesmo modelo na VRAM, caso contrário, é impossível garantir que qualquer nó possa processar qualquer solicitação. O Qwen3-235B completo no formato FP8 ocupa cerca de 640 GB de VRAM, o que já é um compromisso enorme para cada MLNode.
Para a transição para uma rede multimodelos, era necessário um mecanismo que permitisse manter vários modelos simultaneamente, mas que não exigisse que cada host os executasse todos. Esse mecanismo se tornou os DevShards — shards separados da rede, cada um especializado em um modelo. Os nós dentro de um shard trabalham no mesmo modelo, e o roteador da rede direciona a solicitação para o shard com o modelo apropriado.
A ideia não surgiu do nada — ela foi formalizada na Gonka Improvement Proposal #800 «Multi-Model PoC», submetida a votação da comunidade na primavera de 2026. A proposta recebeu o apoio dos participantes e validadores da rede e foi implementada em abril-maio de 2026. Kimi K2.6 tornou-se o primeiro modelo lançado em um DevShard separado — ou seja, uma implementação de teste da nova abordagem. Se a experiência for bem-sucedida, nada impede o lançamento de um terceiro, um quarto e assim por diante — cada um em seu próprio shard, com seu próprio conjunto de hosts, sua própria economia e seu próprio roadmap.
O que isso significa para usuários e desenvolvedores:
- Uma API, vários modelos. Através do JoinGonka Gateway, não é necessário alterar o endpoint ou as chaves: basta especificar um
modeldiferente no corpo da solicitação. O formato compatível com OpenAI é totalmente mantido. - O preço é o mesmo. Atualmente, Kimi K2.6 na rede é cobrado à mesma taxa que Qwen3-235B — $0.001 por 1M de tokens via Gateway. No futuro, os preços podem variar por modelo, mas a precificação única no início é uma decisão consciente para simplificar a migração dos usuários.
- A estabilidade depende da carga do shard. No estágio inicial, o shard Kimi tem menos hosts do que o shard principal Qwen, então com a concentração de solicitações, o modelo pode temporariamente retornar
429 too many concurrent requests. Esta é uma fase normal para um novo modelo – à medida que o interesse cresce, os hosts se conectarão ao shard Kimi, e os limites aumentarão. - O tool calling está em fase final de ajuste. No momento da redação deste artigo, Kimi K2.6 na rede Gonka apresenta pequenos problemas com a seleção automática de ferramentas (
tool_choice: "auto"). A equipe Gonka está trabalhando para alinhar o comportamento ao padrão OpenAI; para cenários críticos em produção com tool calling, é recomendado usar o Qwen3-235B por enquanto.
Como experimentar Kimi K2.6 através da Gonka
A maneira mais direta é através do JoinGonka API Gateway. O Gateway fornece uma API compatível com OpenAI, o que significa que o mesmo código que funciona com GPT, Claude ou Qwen começará a funcionar com Kimi após a alteração do valor do campo model no corpo da solicitação.
Um exemplo mínimo via curl:
curl https://gate.joingonka.ai/v1/chat/completions \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "moonshotai/Kimi-K2.6",
"messages": [
{"role": "user", "content": "Explique a diferença entre os modelos MoE e densos"}
]
}'A mesma solicitação com Python via biblioteca openai:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://gate.joingonka.ai/v1",
)
response = client.chat.completions.create(
model="moonshotai/Kimi-K2.6",
messages=[{"role": "user", "content": "Olá, Kimi"}],
)
print(response.choices[0].message.content)Streaming (Server-Sent Events) — para interfaces interativas e chats, onde se deseja mostrar a resposta à medida que é gerada:
stream = client.chat.completions.create(
model="moonshotai/Kimi-K2.6",
messages=[{"role": "user", "content": "Escreva um ensaio sobre MoE"}],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)O custo do Kimi K2.6 é o mesmo $0.001 por 1 milhão de tokens, assim como o do Qwen3-235B. Isso é cerca de 2.500 vezes mais barato que o GPT-5.4 e cerca de 3.000 vezes mais barato que o Claude Sonnet 4.5. Ao se registrar no JoinGonka Gateway, você recebe 10 milhões de tokens gratuitos para testar qualquer modelo da rede — isso é suficiente para várias horas de trabalho intenso ou dezenas de milhares de solicitações comuns.
Compatibilidade com ferramentas de desenvolvimento: tudo o que funciona com a API OpenAI também funciona com Kimi através do Gateway. No nível do modelo, basta alterar o parâmetro model:
- Cursor: nas configurações de "Custom Model", especifique
moonshotai/Kimi-K2.6 - Claude Code: variável de ambiente
ANTHROPIC_MODELou a flag--model - OpenClaw, Cline, Continue.dev: no arquivo de configuração do CustomChatModel, altere o nome do modelo
- LangChain, n8n: parâmetro
modelna inicialização do cliente - Open WebUI, LibreChat: o modelo aparece na lista suspensa após adicionar Gonka como um provedor personalizado
A lista de modelos disponíveis está sempre atualizada no endpoint GET /v1/models da sua instância do Gateway — de lá, é conveniente puxá-la dinamicamente para a UI do seu aplicativo, para que os usuários possam ver a lista completa e escolher o modelo eles mesmos.
O chat de demonstração na página /try no momento da publicação funciona apenas com Qwen3-235B — o seletor multimodo no widget está no roadmap. Para experimentar Kimi agora mesmo, use a API do Gateway: os 10M de tokens gratuitos são suficientes para algumas horas de experimentos. Se a resposta for 429 too many concurrent requests — esta é uma fase normal para um novo modelo nos estágios iniciais de crescimento da rede Gonka. Apenas repita a solicitação após alguns segundos ou aguarde um período de menor carga.
O que vem a seguir para a rede Gonka: o sucesso do DevShards para Kimi abre caminho para outros modelos. Discussões da comunidade mencionam DeepSeek-V3/R1, Llama 4 e modelos especializados para código. Cada novo modelo é um novo shard, novos hosts, novas oportunidades para usuários e uma nova fonte de receita para provedores de GPU. A arquitetura de múltiplos modelos também é estrategicamente importante: uma rede vinculada a um único modelo é fundamentalmente frágil (o lançamento de uma nova versão é uma crise de migração), enquanto uma rede capaz de manter vários modelos simultaneamente evolui de forma suave e contínua.
Quer saber mais?
Explore outras seções ou comece a ganhar GNK agora mesmo.
Experimentar Kimi K2.6 via Gateway →