Qwen3-235B: o modelo que Gonka mina

A rede Gonka não apenas aluga GPUs, ela atende modelos de IA para inferência. Por muito tempo, o único modelo foi Qwen3-235B-A22B-Instruct, desenvolvido pela Alibaba Cloud, e em maio de 2026 foi acompanhado por Kimi K2.6 da Moonshot AI. Vamos analisar o que é este modelo, por que Gonka o escolheu e como experimentá-lo através do nosso API Gateway.

O que é Qwen3-235B

Qwen3-235B-A22B-Instruct-2507-FP8 é um Large Language Model (LLM) da família Qwen3, desenvolvido pela equipe Qwen na Alibaba Cloud. O nome completo significa: Qwen3 — terceira geração da série, 235B — 235 bilhões de parâmetros no total, A22B — 22 bilhões de parâmetros ativos por solicitação, Instruct — versão treinada para seguir instruções, 2507 — lançamento de julho de 2025, FP8 — quantização de 8 bits para otimização de memória.

A principal característica arquitetônica é o MoE (Mixture of Experts). Diferente dos modelos “densos” (GPT-5.4, Claude Sonnet 4.5), onde cada token passa por todos os parâmetros, o modelo MoE ativa apenas um subconjunto de “especialistas” (blocos especializados da rede neural) para cada solicitação. No caso do Qwen3-235B, dos 235 bilhões de parâmetros, apenas 22 bilhões são ativados por token — menos de 10%. Isso confere uma qualidade de nível de modelos com mais de 200 bilhões de parâmetros, com custos computacionais de um modelo de 22 bilhões.

Na prática, isso significa: o modelo é mais inteligente do que se esperaria de sua velocidade. Ele processa solicitações significativamente mais rápido do que modelos densos de qualidade comparável, enquanto exige muito menos VRAM para inferência. É por isso que o MoE se tornou a arquitetura dominante para os maiores modelos de 2025-2026.

A janela de contexto do Qwen3-235B é de 131.072 tokens (~100.000 palavras) — o suficiente para analisar livros inteiros, bases de código ou documentos jurídicos longos em uma única solicitação. O modelo suporta 119 idiomas, incluindo russo, inglês, chinês, árabe, hindi e dezenas de outros — tornando-o um dos modelos mais multilíngues do mercado.

Características e benchmarks

O Qwen3-235B compete com os maiores modelos abertos e fechados. Aqui está uma comparação das principais características:

Modelo	Parâmetros	Contexto	MoE	Código Aberto	Preço (por 1M tokens)
Qwen3-235B (via JoinGonka)	235B (22B ativos)	131K	Sim	Sim (Apache 2.0)	$0.001
GPT-5.4 (OpenAI)	~1.8T (estimativa)	128K	Sim (presumido)	Não	$2.50
Claude Sonnet 4.5 (Anthropic)	Não divulgado	200K	Não (presumido)	Não	$3.00
Llama 4 Maverick (Meta)	400B (17B ativos)	1M	Sim	Sim (Licença Llama)	$0.20+ (hospedagem)
DeepSeek-R1 (DeepSeek)	671B (37B ativos)	128K	Sim	Sim (MIT)	$0.55

O Qwen3-235B demonstra um nível de qualidade comparável ao GPT-5.4 e Claude Sonnet 4.5 na maioria dos benchmarks, enquanto seu custo através do JoinGonka Gateway é 2.500 vezes menor do que o do GPT-5.4. Isso é possível devido a dois fatores: a arquitetura MoE reduz os custos computacionais e a rede descentralizada Gonka elimina a margem dos data centers.

Nos benchmarks MMLU-Pro, HumanEval, MATH-500 e GSM8K, o modelo está entre os três melhores modelos de código aberto, perdendo apenas para o DeepSeek-R1 em tarefas de raciocínio matemático. Em tarefas de geração de código, tradução e seguimento de instruções, o Qwen3-235B supera consistentemente o Llama 4 Maverick e é comparável ao Claude Sonnet 4.5.

Como Gonka usa Qwen3-235B

O modelo Qwen3-235B funciona na rede Gonka de forma distribuída — através do protocolo DiLoCo, adaptado para inferência. O modelo completo no formato FP8 requer cerca de 640 GB de memória de vídeo (VRAM), o que é impossível de caber em uma única GPU — nem mesmo uma H100 de 80GB ou uma H200 de 141GB são suficientes. Portanto, o modelo é dividido em camadas (paralelismo de tensor + paralelismo de pipeline) entre vários nós ML.

Na prática, o Qwen3-235B funciona em um cluster de 8 a 16 nós de GPU, cada um com no mínimo 40 GB de VRAM. Os Transfer Agents roteiam a solicitação para o cluster correto, o vLLM em cada nó processa seu fragmento do modelo, os resultados são agregados e retornados ao usuário. Todo o processo leva centenas de milissegundos — o usuário não percebe que sua solicitação foi processada por dezenas de GPUs em diferentes pontos do planeta.

Um detalhe técnico importante: Gonka usa vLLM como motor para serving. vLLM é um projeto de código aberto que fornece geração de texto de alto desempenho por meio do PagedAttention — um algoritmo que otimiza o uso da memória de vídeo ao processar múltiplas solicitações em paralelo. Isso permite que a rede atenda a milhares de usuários simultâneos sem degradação da qualidade.

O modelo oferece suporte para chamada nativa de ferramentas — invocação direta de funções e ferramentas a partir da resposta do modelo. Essa capacidade foi adicionada ao Gonka via PR #767 com um limite de 0.958 para detecção de chamadas de ferramentas. Isso significa que os desenvolvedores podem construir agentes de IA que interagem com APIs externas, bancos de dados e ferramentas — tudo por meio de uma única solicitação ao Qwen3-235B.

A rede Gonka atual conta com mais de 4.000 GPUs (H100, H200, A100, RTX 4090 e outras), combinadas em mais de 120 nós ML. Esta é uma das maiores redes de GPU distribuídas para inferência de IA no mundo — e toda essa potência é dedicada ao Qwen3-235B.

Como experimentar o Qwen3-235B

A maneira mais fácil de experimentar o Qwen3-235B é através do JoinGonka API Gateway. O Gateway oferece uma API compatível com OpenAI, o que significa que qualquer código escrito para OpenAI funciona com o Qwen3-235B sem alterações — basta substituir a URL e a chave da API.

Exemplo de solicitação:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "Explique a arquitetura MoE"}]
  }'

Custo: US$ 0,001 por 1 milhão de tokens — isso é 2.500 vezes mais barato que o GPT-5.4 (US$ 2,50/1M) e 3.000 vezes mais barato que o Claude Sonnet 4.5 (US$ 3,00/1M). Ao se registrar, você recebe 10 milhões de tokens gratuitos para testar.

O Gateway é compatível com ferramentas de desenvolvimento populares: o Início Rápido descreve a conexão via Python, Node.js e curl. Também são suportadas integrações IDE — Cursor, Continue, Cline, Aider e Claude Code — e frameworks para agentes de IA: LangChain, n8n, LibreChat, Open WebUI.

Para começar rapidamente:

Registre-se em gate.joingonka.ai (conecte sua carteira ou crie uma nova)
Obtenha sua chave de API no Painel de Controle
Substitua api.openai.com por gate.joingonka.ai/api em seu código
Use o modelo qwen3-235b-a22b

Qwen3-235B via JoinGonka é um IA de nível empresarial pelo preço de um projeto de hobby.

Qwen3-235B-A22B é um modelo MoE com 235 bilhões de parâmetros da Alibaba Cloud, que a rede Gonka usa para inferência de IA descentralizada. Graças à arquitetura MoE, ele oferece qualidade de nível GPT-5.4 a um custo 2.500 vezes menor. Através do JoinGonka Gateway, o modelo está disponível via API compatível com OpenAI por US$ 0,001/1M tokens.

← Escolha da GPU para Gonka: recomendações de hardware Kimi K2.6: o segundo modelo da rede Gonka →

Quer saber mais?

Explore outras seções ou comece a ganhar GNK agora mesmo.

Experimentar Qwen3-235B →