MiniMax M2.7: modelo de la red Gonka

En la primavera de 2026, la red Gonka pasó de ser una red de modelo único a una multimodelo. Primero se añadió Kimi K2.6 al modelo insignia Qwen3-235B, y a finales de mayo de 2026, MiniMax M2.7 del laboratorio chino MiniMax. Más tarde, Qwen3-235B fue retirado de la red, y hoy Gonka mantiene dos modelos simultáneamente: Kimi K2.6 y MiniMax M2.7.

Analicemos qué es MiniMax M2.7, quién está detrás de su desarrollo, cuáles son sus características específicamente en la red Gonka, qué lo diferencia del otro modelo en funcionamiento, Kimi K2.6, y cómo acceder a él a través de nuestro API Gateway mediante el protocolo compatible con OpenAI.

Qué es MiniMax M2.7 y quién está detrás del modelo

MiniMax M2.7 es un modelo de lenguaje grande (LLM) de la empresa MiniMax, con sede en Shanghái. MiniMax fue fundada en 2021 por un equipo de investigadores dirigido por Yan Junjie (anteriormente en SenseTime) y rápidamente se convirtió en uno de los principales laboratorios de IA de China. La compañía atrajo financiación de Alibaba, Tencent y HongShan, el mismo círculo de inversores estratégicos que respalda a otros "tigres de la IA chinos", incluido Moonshot AI, el desarrollador de Kimi K2.6.

Más allá de los modelos de lenguaje puros, MiniMax es conocida por sus productos de consumo: los asistentes de chat Talkie y Hailuo, y uno de los generadores de video más destacados de la industria. Pero para la red Gonka, la línea de modelos de texto de la serie M, sucesores de los modelos abab anteriores, es particularmente importante.

La principal característica arquitectónica de la serie M es su enfoque en un mecanismo de atención eficiente. Mientras que los modelos grandes anteriores utilizaban la atención cuadrática clásica (el coste computacional crece proporcionalmente al cuadrado de la longitud del contexto), MiniMax fue una de las primeras en lanzar una atención lineal híbrida de código abierto. Esto permite procesar secuencias muy largas sin un crecimiento explosivo del coste computacional, una característica histórica de la línea. Al igual que Qwen3-235B y Kimi K2.6, el modelo se basa en la arquitectura MoE (Mixture of Experts): cientos de miles de millones de parámetros "en papel", pero solo una pequeña parte de ellos se activa para cada consulta, lo que reduce drásticamente el coste de inferencia.

En la red Gonka, el modelo se identifica como MiniMaxAI/MiniMax-M2.7; esta es la cadena que debe pasarse en el campo model de la solicitud de API. La versión M2.7 es la última iteración de la serie M en el momento de la publicación de este artículo.

Características de MiniMax M2.7 en la red Gonka

Es importante distinguir entre las características del modelo "out-of-the-box" y las características con las que se despliega en una red específica. Cuando el modelo funciona en la red descentralizada Gonka, sus parámetros operativos están definidos por la configuración del vLLM-inferenced en el lado de los hosts GPU, y no solo por la arquitectura del modelo. Estos son los valores reales que devuelve nuestro Gateway:

Ventana de contexto: 200 000 tokens (alrededor de 150 000 palabras). Esta es la configuración de subnet en la red Gonka. La arquitectura de MiniMax admite un contexto sustancialmente más largo, pero el límite práctico en cada momento está determinado por la configuración de inferenced en los hosts.
Salida máxima: 8 192 tokens por respuesta. Esta cifra se midió empíricamente mediante una solicitud con generación larga forzada, que alcanzó el límite (finish_reason: length). Actualmente, este límite es el mismo para todos los modelos de la red: hasta 8 192 tokens. Esto no es un límite del modelo en sí, sino una configuración del subnet vLLM.
Requisito de VRAM del host: aproximadamente 320 GB de VRAM por nodo. Este es un requisito típico para un modelo MoE grande en cuantización FP8: los mismos 320 GB son necesarios para Kimi K2.6. En la práctica, esto significa varias GPU clase H100/H200 combinadas en un solo nodo.

El precio del inferenced en la red Gonka no depende de la elección del modelo y se determina por parámetros de red: a través de JoinGonka Gateway, MiniMax M2.7 está disponible a la misma tarifa que Kimi K2.6. Este precio unificado es consecuencia de que la red se basa en un cálculo único de costo por trabajo computacional, no en la lista de precios de un proveedor específico.

MiniMax M2.7 y Kimi K2.6: comparación de modelos Gonka

Un usuario de la red Gonka puede elegir entre dos modelos insignia, y ambos están disponibles a través de una interfaz única compatible con OpenAI: JoinGonka Gateway. La comparación a continuación ayuda a entender no cuál es "mejor", sino para qué perfil de tareas está optimizado cada uno.

Característica	MiniMax M2.7	Kimi K2.6
Fabricante	MiniMax (Shanghái)	Moonshot AI (Pekín)
Arquitectura	MoE + atención lineal	MoE
Contexto en Gonka	200 000 tokens	200 000 tokens
Salida máx.	8 192 tokens	8 192 tokens
Fortaleza histórica	Contexto largo, atención eficiente	Razonamiento, contexto largo
Identificador API	`MiniMaxAI/MiniMax-M2.7`	`moonshotai/Kimi-K2.6`
Estado en la red	Lanzado mediante actualización v0.2.13 (mayo 2026)	Lanzado mediante DevShards (mayo 2026)

Una salvedad importante sobre los benchmarks en 2026: la brecha entre los principales modelos de open-weights en las pruebas públicas se ha reducido a unidades porcentuales, y esta diferencia a menudo se sitúa dentro del margen de error estadístico de los propios benchmarks. Para el trabajo práctico, lo que importa no es la posición absoluta en el ranking MMLU, sino la naturaleza de la tarea: longitud del contexto, complejidad de las cadenas lógicas, idioma necesario y disponibilidad de tool calling.

Orientación práctica: para tareas con documentos muy largos y procesamiento en streaming de grandes volúmenes de texto, tiene sentido probar MiniMax M2.7: la atención eficiente de su serie está históricamente adaptada a tales escenarios. Para tareas de razonamiento con lógica compleja y contexto largo, vale la pena comparar las respuestas con Kimi K2.6. La mejor estrategia en producción es mantener ambos modelos en el código y alternar entre ellos con un único parámetro model sin cambiar la arquitectura de la aplicación.

Cómo Gonka lanzó MiniMax M2.7: actualización v0.2.13

La adición de MiniMax M2.7 no es una "carga de archivo al servidor", sino el resultado de una actualización de red que pasó por una votación on-chain. El soporte para el modelo se incluyó en la versión del protocolo v0.2.13, aprobada por la propuesta #54: fue aceptada el 21 de mayo de 2026 (con cerca del 63% de los votos a favor) y activada en una altura de bloque determinada. Este es el mismo mecanismo de governance a través del cual la red adopta cualquier cambio significativo, desde tarifas hasta nuevos modelos.

La multimodalidad para una red descentralizada es un paso fundamental. Una red ligada a un solo modelo es fundamentalmente frágil: el lanzamiento de una nueva versión del modelo se convierte en una crisis de migración, y cualquier fallo del modelo único derriba todo el servicio. Una red capaz de mantener varios modelos simultáneamente evoluciona de forma fluida: los nuevos modelos se añaden como "carriles" adicionales, los antiguos continúan funcionando y los GPU-hosts obtienen la capacidad de elegir qué dar servicio. Técnicamente, cada modelo vive en su propia partición de la red; este mismo mecanismo (DevShards) se utilizó anteriormente para ejecutar Kimi K2.6.

Un matiz importante de las etapas iniciales: puede haber un retraso entre "el modelo apareció en la lista de la red" y "el modelo está abierto para todos los clientes". Al principio, el inferenced de MiniMax M2.7 en modo broker solo estaba disponible para llaves privilegiadas y devolvía un error para las solicitudes normales, una fase normal de pruebas. A finales de mayo de 2026, se abrió el acceso público y el modelo quedó disponible para todos los clientes de Gateway. Más información sobre cómo funciona la red y por qué los modelos se ejecutan de esta manera en el artículo sobre la arquitectura de red de Gonka.

La misma MiniMax M2.7 a través de OpenRouter cuesta $0.279/$1.20 por 1M, frente a los $0.003/$0.009 de JoinGonka.

Cómo usar MiniMax M2.7 a través de JoinGonka Gateway

La ruta más directa es a través de JoinGonka API Gateway. Dado que el Gateway proporciona una API compatible con OpenAI, el mismo código que funciona con GPT, Claude o Kimi comenzará a funcionar con MiniMax después de cambiar el valor del campo model.

Ejemplo mínimo mediante curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Explica brevemente qué es el atención lineal"}
    ]
  }'

La misma solicitud en Python mediante la librería openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Hola, MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) — para interfaces interactivas, donde la respuesta se muestra a medida que se genera:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Escribe un breve ensayo sobre el contexto largo"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Al registrarse en JoinGonka Gateway, usted recibe 10 millones de tokens gratuitos para probar cualquier modelo de la red; esto es suficiente para comparar ambos modelos de la red en sus propias tareas.

Compatibilidad con herramientas de desarrollo: todo lo que funciona con OpenAI API, también funciona con MiniMax a través del Gateway. Basta con cambiar el parámetro model:

Cursor: en los ajustes de Custom Model, especifique MiniMaxAI/MiniMax-M2.7
Claude Code, Cline, Continue.dev: el nombre del modelo en la configuración
LangChain, n8n: el parámetro model al inicializar el cliente

La lista actualizada de modelos siempre está disponible en el endpoint GET /v1/models; desde allí es conveniente obtenerla dinámicamente para que la UI de su aplicación muestre el conjunto actualizado. Si la respuesta contiene 429 too many concurrent requests — es una fase normal para un modelo nuevo en la etapa temprana de crecimiento de la red: repita la solicitud después de unos segundos.

Cuándo elegir MiniMax M2.7 — escenarios prácticos

Tener dos modelos en una misma red resulta valioso porque se puede elegir una herramienta diferente para distintas tareas, sin cambiar de proveedor ni el código de integración. Aquí hay escenarios donde tiene sentido comenzar las pruebas con MiniMax M2.7.

Análisis de documentos largos. Si la tarea es resumir contratos, analizar documentación técnica o procesar grandes volúmenes de textos legales o financieros, el mecanismo de atención eficiente de la serie M está históricamente diseñado para mantener contextos largos sin un aumento drástico en el costo. Envíe el documento completo en una sola solicitud y pídale al modelo que trabaje con todo el volumen a la vez, en lugar de hacerlo por partes.

RAG y trabajo con bases de conocimiento. En escenarios de retrieval-augmented, donde se mezclan docenas de fragmentos de una base vectorial en el contexto, la capacidad del modelo para retener muchos fragmentos de texto heterogéneos afecta directamente la calidad de la respuesta. Este es un nicho natural para modelos con contexto largo.

Procesamiento de transcripciones y registros. Transcripciones de llamadas, diálogos largos de soporte, registros de flujo (logs) — tareas donde el volumen de entrada es grande pero la respuesta suele ser corta. Aquí, el límite de salida de 8 192 tokens no supone un problema: entra mucho, y sale un resumen o hechos extraídos.

Cuándo elegir otro modelo. Actualmente, todos los modelos de la red ofrecen hasta 8 192 tokens en una sola respuesta, por lo que si su aplicación necesita una respuesta muy larga por solicitud (un documento grande generado o un bloque extenso de código), considere este límite general en la arquitectura y divida la generación en partes. Para tareas con razonamientos complejos de varios pasos, vale la pena comparar las respuestas con Kimi K2.6. Un consejo universal: ejecute el mismo conjunto de sus solicitudes reales a través de ambos modelos y compare los resultados; los 10 millones de tokens gratuitos al registrarse serán suficientes para una prueba comparativa completa.

Técnicamente, cambiar entre modelos implica cambiar una línea en el campo model. Por lo tanto, una arquitectura competente de una aplicación en la red Gonka no «selecciona un modelo para siempre», sino que permite enrutar las solicitudes entre Kimi K2.6 y MiniMax M2.7 dependiendo del tipo de tarea: el inference barato hace que este enrutamiento sea económicamente ventajoso.

MiniMax M2.7 — un modelo MoE del laboratorio de Shanghái MiniMax, añadido a la red Gonka en mayo de 2026 junto con Kimi K2.6 (la compatibilidad se incluyó en la actualización del protocolo v0.2.13, propuesta #54); hacia finales de mayo, el inference público se abrió para todos. En la red Gonka, el modelo funciona con un contexto de 200 000 tokens y un límite de salida de 8 192 tokens por nodo con ~320 GB de VRAM. A través de JoinGonka Gateway está disponible mediante una API compatible con OpenAI; el identificador del modelo es MiniMaxAI/MiniMax-M2.7. La serie M es históricamente fuerte en atención eficiente y contexto largo.

← Kimi K2.6: el segundo modelo de la red Gonka

¿Quieres saber más?

Explora otras secciones o empieza a ganar GNK ahora mismo.

Probar MiniMax M2.7 vía Gateway →