Qwen3-235B: el modelo que mina Gonka

La red Gonka no solo alquila GPU, sino que también ofrece modelos de IA para inferencia. Durante mucho tiempo, el único modelo fue Qwen3-235B-A22B-Instruct, desarrollado por Alibaba Cloud, y en mayo de 2026 se le unió Kimi K2.6 de Moonshot AI. Analicemos qué es este modelo, por qué Gonka lo eligió y cómo probarlo a través de nuestro API Gateway.

¿Qué es Qwen3-235B?

Qwen3-235B-A22B-Instruct-2507-FP8 es un modelo de lenguaje grande (LLM) de la familia Qwen3, desarrollado por el equipo de Qwen en Alibaba Cloud. El nombre completo se descifra así: Qwen3 — tercera generación de la serie, 235B — 235 mil millones de parámetros en total, A22B — 22 mil millones de parámetros activos por cada solicitud, Instruct — versión entrenada para seguir instrucciones, 2507 — lanzamiento de julio de 2025, FP8 — cuantificación de 8 bits para optimización de memoria.

La característica arquitectónica clave es MoE (Mixture of Experts). A diferencia de los modelos "densos" (GPT-5.4, Claude Sonnet 4.5), donde cada token pasa por todos los parámetros, un modelo MoE activa solo un subconjunto de "expertos" (bloques de red neuronal especializados) para cada solicitud. En el caso de Qwen3-235B, de los 235 mil millones de parámetros, solo 22 mil millones se activan por cada token, menos del 10%. Esto proporciona una calidad comparable a la de modelos con más de 200 mil millones de parámetros, con costos computacionales de un modelo de 22 mil millones.

En la práctica, esto significa: el modelo es más inteligente de lo que se podría esperar de su velocidad. Procesa solicitudes significativamente más rápido que los modelos densos de calidad comparable, mientras que requiere mucha menos VRAM para la inferencia. Por lo tanto, MoE se ha convertido en la arquitectura dominante para los modelos más grandes de 2025-2026.

La ventana de contexto de Qwen3-235B es de 131.072 tokens (~100.000 palabras), lo que es suficiente para analizar libros completos, bases de código o documentos legales extensos en una sola solicitud. El modelo admite 119 idiomas, incluidos ruso, inglés, chino, árabe, hindi y decenas de otros, lo que lo convierte en uno de los modelos multilingües más versátiles del mercado.

Características y puntos de referencia

Qwen3-235B compite con los modelos abiertos y cerrados más grandes. Aquí hay una comparación de las características clave:

Modelo	Parámetros	Contexto	MoE	Código Abierto	Precio (por 1M de tokens)
Qwen3-235B (a través de JoinGonka)	235B (22B activos)	131K	Sí	Sí (Apache 2.0)	$0.001
GPT-5.4 (OpenAI)	~1.8T (estimación)	128K	Sí (presumiblemente)	No	$2.50
Claude Sonnet 4.5 (Anthropic)	No revelado	200K	No (presumiblemente)	No	$3.00
Llama 4 Maverick (Meta)	400B (17B activos)	1M	Sí	Sí (Licencia Llama)	$0.20+ (hosting)
DeepSeek-R1 (DeepSeek)	671B (37B activos)	128K	Sí	Sí (MIT)	$0.55

Qwen3-235B demuestra un nivel de calidad comparable al de GPT-5.4 y Claude Sonnet 4.5 en la mayoría de los benchmarks, mientras que su costo a través de JoinGonka Gateway es 2.500 veces menor que el de GPT-5.4. Esto es posible gracias a dos factores: la arquitectura MoE reduce los costos computacionales, y la red descentralizada Gonka elimina el margen de los centros de datos.

En los benchmarks MMLU-Pro, HumanEval, MATH-500 y GSM8K, el modelo se encuentra entre los tres mejores modelos de código abierto, superando solo a DeepSeek-R1 en tareas de razonamiento matemático. En tareas de generación de código, traducción y seguimiento de instrucciones, Qwen3-235B supera consistentemente a Llama 4 Maverick y es comparable a Claude Sonnet 4.5.

Cómo Gonka usa Qwen3-235B

El modelo Qwen3-235B funciona en la red Gonka de forma distribuida, a través del protocolo DiLoCo, adaptado para inferencia. El modelo completo en formato FP8 requiere alrededor de 640 GB de memoria de video (VRAM), lo que es imposible de acomodar en una sola GPU; incluso H100 de 80 GB o H200 de 141 GB no son suficientes. Por lo tanto, el modelo se divide en capas (paralelismo tensor + paralelismo de tuberías) entre varios nodos ML.

En la práctica, Qwen3-235B se ejecuta en un clúster de 8 a 16 nodos GPU, cada uno con un mínimo de 40 GB de VRAM. Los Agentes de Transferencia dirigen la solicitud al clúster correcto, vLLM en cada nodo procesa su fragmento del modelo, los resultados se agregan y se devuelven al usuario. Todo el proceso lleva cientos de milisegundos; el usuario no se da cuenta de que su solicitud ha sido procesada por una docena de GPU en diferentes puntos del planeta.

Un detalle técnico importante: Gonka utiliza vLLM como motor para el serving. vLLM es un proyecto de código abierto que proporciona generación de texto de alto rendimiento a través de PagedAttention, un algoritmo que optimiza el uso de la memoria de video cuando se procesan múltiples solicitudes en paralelo. Esto permite a la red atender a miles de usuarios simultáneos sin degradación de la calidad.

El modelo admite llamadas a herramientas nativas, la invocación de funciones y herramientas directamente desde la respuesta del modelo. Esta capacidad se agregó a Gonka a través del PR #767 con un umbral de 0,958 para la detección de llamadas a herramientas. Esto significa que los desarrolladores pueden construir agentes de IA que interactúen con API externas, bases de datos y herramientas, todo a través de una única solicitud a Qwen3-235B.

La red Gonka actual cuenta con más de 4.000 GPU (H100, H200, A100, RTX 4090 y otras), unidas en más de 120 nodos ML. Esta es una de las redes GPU distribuidas más grandes para inferencia de IA en el mundo, y toda esta potencia está dirigida a servir a Qwen3-235B.

Cómo probar Qwen3-235B

La forma más sencilla de probar Qwen3-235B es a través de JoinGonka API Gateway. El Gateway proporciona una API compatible con OpenAI, lo que significa que cualquier código escrito para OpenAI funciona con Qwen3-235B sin cambios, solo necesita reemplazar la URL y la clave de API.

Ejemplo de consulta:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "Explain the MoE architecture"}]
  }'

Costo: $0.001 por 1 millón de tokens, lo que es 2500 veces más barato que GPT-5.4 ($2.50/1M) y 3000 veces más barato que Claude Sonnet 4.5 ($3.00/1M). Al registrarse, recibirá 10 millones de tokens gratuitos para realizar pruebas.

Gateway es compatible con herramientas de desarrollo populares: Guía de inicio rápido describe la conexión a través de Python, Node.js y curl. También se admiten integraciones IDE (Cursor, Continue, Cline, Aider y Claude Code) y marcos de agentes de IA (LangChain, n8n, LibreChat, Open WebUI).

Para empezar rápidamente:

Regístrate en gate.joingonka.ai (conecta un monedero o crea uno nuevo)
Obtén la clave API en el Panel de control
Reemplaza api.openai.com por gate.joingonka.ai/api en tu código
Usa el modelo qwen3-235b-a22b

Qwen3-235B a través de JoinGonka es un nivel empresarial de IA al precio de un proyecto de pasatiempo.

Qwen3-235B-A22B es un modelo MoE con 235 mil millones de parámetros de Alibaba Cloud que la red Gonka utiliza para la inferencia de IA descentralizada. Gracias a la arquitectura MoE, ofrece una calidad similar a la de GPT-5.4 a un costo 2.500 veces menor. A través de JoinGonka Gateway, el modelo está disponible a través de una API compatible con OpenAI por $0.001/1M de tokens.

← Elección de GPU para Gonka: recomendaciones de hardware Kimi K2.6: el segundo modelo de la red Gonka →

¿Quieres saber más?

Explora otras secciones o empieza a ganar GNK ahora mismo.

Probar Qwen3-235B →