Secciones de la base de conocimientos ▾

Herramientas

Tecnología

Kimi K2.6: el segundo modelo de la red Gonka

Durante mucho tiempo, la red Gonka operó con un único modelo: Qwen3-235B de Alibaba Cloud. En mayo de 2026, esto cambió: se lanzó la compatibilidad con varios modelos a través del mecanismo DevShards, y el primero en llegar fue Kimi K2.6 de la empresa china Moonshot AI. Analicemos qué es este modelo, en qué se diferencia de Qwen3-235B, cómo Gonka implementó técnicamente la capacidad multimodelos y cómo probar el nuevo modelo a través de nuestro API Gateway.

Qué es Kimi K2.6 de Moonshot AI

Kimi K2.6 es un gran modelo de lenguaje (LLM) de la serie Kimi, desarrollado por la empresa con sede en Pekín Moonshot AI. Moonshot AI es uno de los principales laboratorios de IA de China, fundado en 2023 por un equipo de investigadores dirigido por Yang Zhilin. La empresa ha atraído financiación de Alibaba, Tencent y otros grandes inversores, y ha sido incluida en la lista de los "tigres de IA chinos": empresas que marcan el ritmo del desarrollo de la IA en Asia.

La serie Kimi es conocida desde 2024. Las primeras versiones (K1, K1.5) llamaron inmediatamente la atención por su ventana de contexto excepcionalmente larga, de hasta 200.000 tokens en una sola solicitud, que en el momento de su lanzamiento era un récord para los modelos disponibles públicamente. Un contexto largo significa la posibilidad práctica de analizar un libro entero, una base de código de tamaño medio o una colección de documentos legales en una sola solicitud. En el momento del lanzamiento de Kimi, esta característica era una fuerte ventaja competitiva.

La versión K2 apareció en 2025 y trajo consigo un salto arquitectónico fundamental: la transición a MoE (Mixture of Experts). Esta misma arquitectura es la base de Qwen3-235B y DeepSeek-R1, convirtiéndose en el estándar de facto para los modelos más grandes de 2025-2026. MoE permite tener cientos de miles de millones de parámetros "en total", pero activar solo un subconjunto (normalmente del 5 al 10%) en cada solicitud, lo que reduce radicalmente el costo computacional de la inferencia con una calidad comparable.

K2.6 es la última iteración de la serie K2 en el momento de escribir este artículo. Según las declaraciones públicas de Moonshot AI, esta versión mejora las capacidades del modelo en razonamiento (razonamiento lógico), generación de código y llamada a herramientas nativas (tool calling). En la red Gonka, el modelo se identifica como moonshotai/Kimi-K2.6 — este es el nombre que debe pasarse en el campo model de la solicitud API.

Comparación de Kimi K2.6 y Qwen3-235B

Ambos modelos representan desarrollos emblemáticos de los principales laboratorios de IA chinos y ambos están disponibles a través de una única interfaz compatible con OpenAI JoinGonka Gateway. Sin embargo, tienen diferentes puntos fuertes y legados, lo que hace que la elección entre ellos no sea una cuestión de "cuál es mejor", sino de "cuál se adapta mejor a la tarea".

CaracterísticaKimi K2.6Qwen3-235B-A22B
FabricanteMoonshot AI (Pekín)Alibaba Cloud (Hangzhou)
Año de fundación de la empresa20232009 (Alibaba Cloud)
ArquitecturaMoEMoE (235B total, 22B activos)
Ventana de contextoContexto largo (tarjeta de presentación de la serie Kimi)131.072 tokens (~100.000 palabras)
Puntos fuertesRazonamiento, contexto largo, generación de códigoUniversal, multilingüe (119 idiomas), tool calling estable
Precio a través de JoinGonka$0.001 por 1M de tokens$0.001 por 1M de tokens
ID de la APImoonshotai/Kimi-K2.6Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
Tool callingEn desarrollo (auto-choice)Nativo, estable (PR #767)
Estado en la red GonkaLanzado a través de DevShards (mayo de 2026)Estable desde agosto de 2025

En pruebas de razonamiento (MATH-500, GSM8K, AIME), la serie Kimi K2 históricamente muestra resultados en el grupo superior de modelos de pesos abiertos, compitiendo con DeepSeek-R1 y modelos de estilo o1. En tareas de generación de código (HumanEval, MBPP), ambos modelos se mantienen en niveles similares. En multilingüismo y traducción, Qwen3-235B tiene una ventaja debido a su entrenamiento en 119 idiomas, mientras que Kimi está más optimizado para chino e inglés.

Una advertencia importante sobre las pruebas comparativas en 2026: la brecha entre los modelos principales en las pruebas públicas se ha reducido a unos pocos puntos porcentuales, y esta diferencia a menudo se encuentra dentro del margen de error estadístico de las propias pruebas. Para el trabajo práctico, lo importante no es "quién es 2% superior en MMLU", sino la naturaleza de las tareas: qué contexto se le pasa al modelo, qué tan complejas son las cadenas lógicas, si se necesita un historial de diálogo largo, qué idiomas se utilizan. Por lo tanto, la tabla anterior no clasifica los modelos, sino que ayuda a comprender rápidamente para qué perfil de tareas está optimizado cada uno.

Para una elección práctica: si la tarea requiere un contexto largo (análisis de documentos grandes, lectura de una base de código voluminosa, diálogos largos con historial) o tareas de razonamiento complejas, se debe comenzar con Kimi K2.6. Para tareas universales, traducciones, trabajo multilingüe y tool calling estable en producción, Qwen3-235B parece ser una opción más probada, ya que ha estado funcionando durante más tiempo en la red Gonka. Una buena estrategia en producción es tener ambos modelos en su código: un cambio rápido a través del parámetro model permite alternar entre ellos según la tarea sin cambiar la arquitectura de la aplicación.

DevShards: cómo Gonka lanzó el segundo modelo

Hasta la primavera de 2026, toda la red Gonka sólo servía un modelo: Qwen3-235B. Desde el punto de vista arquitectónico, esta fue una decisión sensata: la inferencia distribuida a través de DiLoCo requiere que todos los participantes de la red mantengan el mismo modelo en la VRAM, de lo contrario es imposible garantizar que cualquier nodo pueda manejar cualquier solicitud. El Qwen3-235B completo en formato FP8 ocupa aproximadamente 640 GB de VRAM, lo que ya es un compromiso enorme para cada MLNode.

Para pasar a una red multimodo, se necesitaba un mecanismo que permitiera tener varios modelos simultáneamente, pero que no requiriera que cada host los ejecutara todos. Este mecanismo son los DevShards — fragmentos separados de la red, cada uno de los cuales se especializa en un modelo. Los nodos dentro de un fragmento trabajan en el mismo modelo, y el enrutador de la red dirige la solicitud al fragmento con el modelo deseado.

La idea no surgió de la nada, sino que fue formalizada en la Propuesta de Mejora de Gonka #800 «Multi-Model PoC», sometida a votación de la comunidad en la primavera de 2026. La propuesta recibió el apoyo de los participantes y validadores de la red y fue implementada en abril-mayo de 2026. Kimi K2.6 se convirtió en el primer modelo lanzado en un DevShard separado, es decir, una implementación de prueba del nuevo enfoque. Si la experiencia resulta exitosa, nada impide lanzar un tercero, un cuarto, etc., cada uno en su propio fragmento, con su propio conjunto de hosts, su propia economía y su propio plan de desarrollo.

Qué significa esto para usuarios y desarrolladores:

  • Una API, varios modelos. A través de JoinGonka Gateway, no es necesario cambiar el punto final ni las claves: basta con especificar un model diferente en el cuerpo de la solicitud. El formato compatible con OpenAI se mantiene por completo.
  • El precio es el mismo. Actualmente, Kimi K2.6 en la red se tarifa a la misma tasa que Qwen3-235B: $0.001 por 1M de tokens a través del Gateway. En el futuro, los precios pueden variar según los modelos, pero la tarificación única al inicio es una decisión consciente para simplificar la migración de los usuarios.
  • La estabilidad depende de la carga del shard. En la primera fase, el shard de Kimi tiene menos hosts que el shard principal de Qwen, por lo que, al concentrarse las solicitudes, el modelo puede devolver temporalmente 429 too many concurrent requests. Esta es una fase normal para un nuevo modelo. A medida que aumente el interés, los hosts se conectarán al shard de Kimi y los límites aumentarán.
  • La llamada de herramientas está en desarrollo. En el momento de escribir este artículo, Kimi K2.6 en la red Gonka presenta pequeños problemas con la selección automática de herramientas (tool_choice: "auto"). El equipo de Gonka está trabajando para que el comportamiento se ajuste al estándar de OpenAI; para escenarios de producción críticos con tool calling, se recomienda usar Qwen3-235B por ahora.

Cómo probar Kimi K2.6 a través de Gonka

La forma más directa es a través de JoinGonka API Gateway. El Gateway proporciona una API compatible con OpenAI, lo que significa que el mismo código que funciona con GPT, Claude o Qwen comenzará a funcionar con Kimi después de cambiar el valor del campo model en el cuerpo de la solicitud.

Un ejemplo mínimo mediante curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2.6",
    "messages": [
      {"role": "user", "content": "Explica la diferencia entre los modelos MoE y dense"}
    ]
  }'

La misma solicitud con Python a través de la biblioteca openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Hola, Kimi"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) — para interfaces interactivas y chats, donde se desea mostrar la respuesta a medida que se genera:

stream = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Escribe un ensayo sobre MoE"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

El costo de Kimi K2.6 es el mismo $0.001 por 1 millón de tokens que el de Qwen3-235B. Esto es aproximadamente 2,500 veces más barato que GPT-5.4 y aproximadamente 3,000 veces más barato que Claude Sonnet 4.5. Al registrarte en JoinGonka Gateway, obtendrás 10 millones de tokens gratis para probar cualquier modelo de la red; esto es suficiente para varias horas de trabajo intensivo o decenas de miles de solicitudes normales.

Compatibilidad con herramientas de desarrollo: todo lo que funciona con la API de OpenAI, también funciona con Kimi a través del Gateway. A nivel de modelo, solo hay que cambiar el parámetro model:

  • Cursor: en la configuración de Custom Model, especifique moonshotai/Kimi-K2.6
  • Claude Code: variable de entorno ANTHROPIC_MODEL o el indicador --model
  • OpenClaw, Cline, Continue.dev: en la configuración de CustomChatModel, cambie el nombre del modelo
  • LangChain, n8n: parámetro model en la inicialización del cliente
  • Open WebUI, LibreChat: el modelo aparece en el menú desplegable después de agregar Gonka como proveedor personalizado

La lista de modelos disponibles siempre está actualizada en el punto final GET /v1/models de su instancia de Gateway; desde allí, es conveniente extraerla dinámicamente en la interfaz de usuario de su aplicación para que los usuarios puedan ver la lista completa y elegir el modelo ellos mismos.

El chat de demostración en la página /try en el momento de la publicación solo funciona con Qwen3-235B — el selector multimodo en el widget está en la hoja de ruta. Para probar Kimi ahora mismo, utilice la API de Gateway: los 10 millones de tokens gratuitos son suficientes para varias horas de experimentos. Si recibe 429 too many concurrent requests como respuesta, es una fase normal para un modelo nuevo en las primeras etapas de crecimiento de la red Gonka. Simplemente repita la solicitud después de unos segundos o espere una ventana de menor carga.

¿Qué sigue para la red Gonka? El éxito de DevShards para Kimi abre el camino a otros modelos. En las discusiones de la comunidad, se mencionan DeepSeek-V3/R1, Llama 4 y modelos especializados para código. Cada nuevo modelo significa un nuevo shard, nuevos hosts, nuevas oportunidades para los usuarios y una nueva fuente de ingresos para los proveedores de GPU. La arquitectura multimodo también es estratégicamente importante: una red atada a un solo modelo es fundamentalmente frágil (el lanzamiento de una nueva versión es una crisis de migración), mientras que una red capaz de mantener varios modelos simultáneamente evoluciona de manera suave y continua.

Kimi K2.6: modelo MoE de Moonshot AI con contexto largo y potentes capacidades de razonamiento. En mayo de 2026, se convirtió en el segundo modelo de la red Gonka después de Qwen3-235B, lanzado a través del mecanismo DevShards (un shard separado por modelo). A través de JoinGonka Gateway, está disponible mediante una API compatible con OpenAI por $0.001 por 1M de tokens, el mismo precio que Qwen. El identificador del modelo en la API es moonshotai/Kimi-K2.6. En las primeras etapas, pueden producirse errores temporales de tipo 429 al concentrarse las solicitudes; el tool calling está en fase de desarrollo.

¿Quieres saber más?

Explora otras secciones o empieza a ganar GNK ahora mismo.

Probar Kimi K2.6 a través del Gateway →