MiniMax M2.7: Gonka Netzwerkmodell

Im Frühjahr 2026 entwickelte sich das Gonka-Netzwerk von einem Single-Model-Netzwerk zu einem Multi-Model-Netzwerk. Zuerst wurde Kimi K2.6 zum Flaggschiff Qwen3-235B hinzugefügt, und Ende Mai 2026 folgte MiniMax M2.7 vom chinesischen Labor MiniMax. Später wurde Qwen3-235B aus dem Netzwerk entfernt, sodass Gonka heute zwei Modelle gleichzeitig betreibt – Kimi K2.6 und MiniMax M2.7.

Wir untersuchen, was MiniMax M2.7 ist, wer hinter seiner Entwicklung steckt, welche Eigenschaften es im Gonka-Netzwerk besitzt, wie es sich vom zweiten aktiven Netzwerkmodell Kimi K2.6 unterscheidet und wie man über unser API Gateway per OpenAI-kompatiblem Protokoll darauf zugreift.

Was ist MiniMax M2.7 und wer steht hinter dem Modell?

MiniMax M2.7 ist ein großes Sprachmodell (LLM) des Unternehmens MiniMax mit Sitz in Shanghai. MiniMax wurde 2021 von einem Forscherteam unter der Leitung von Yan Junjie (ehemals bei SenseTime) gegründet und etablierte sich schnell als eines der führenden KI-Labore Chinas. Das Unternehmen Sponsoring von Alibaba, Tencent und HongShan angezogen – demselben Kreis strategischer Investoren, der auch hinter anderen „chinesischen KI-Tigern“ steht, darunter Moonshot AI, der Entwickler von Kimi K2.6.

Abgesehen von reinen Sprachmodellen ist MiniMax für Konsumgüter bekannt: die Chat-Assistenten Talkie und Hailuo sowie einer der bemerkenswertesten Videogeneratoren der Branche. Für das Gonka-Netzwerk ist jedoch die M-Serienlinie von Textmodellen, die Nachfolger der früheren abab-Modelle, von Bedeutung.

Das wichtigste architektonische Merkmal der M-Serie ist ihr Fokus auf einen effizienten Aufmerksamkeitsmechanismus. Während frühe große Modelle klassische quadratische Aufmerksamkeit (Rechenkosten wachsen proportional zum Quadrat der Kontextlänge) verwendeten, war MiniMax eines der ersten Unternehmen, das eine hybride lineare Aufmerksamkeit öffentlich zugänglich machte. Dies ermöglicht die Verarbeitung sehr langer Sequenzen ohne eine explosionsartige Zunahme der Rechenkosten – ein historisches Markenzeichen der Linie. Wie Qwen3-235B und Kimi K2.6 basiert das Modell auf der MoE-Architektur (Mixture of Experts): Hunderte Milliarden Parameter „auf dem Papier“, aber bei jeder Anfrage wird nur ein kleiner Teil davon aktiviert, was die Kosten für Inferenz radikal senkt.

Im Gonka-Netzwerk wird das Modell als MiniMaxAI/MiniMax-M2.7 identifiziert – genau dieser String muss im Feld model der API-Anfrage übergeben werden. Version M2.7 ist die neueste Iteration der M-Serie zum Zeitpunkt der Veröffentlichung dieses Artikels.

Eigenschaften von MiniMax M2.7 im Gonka-Netzwerk

Es ist wichtig, zwischen den „Out-of-the-box“-Eigenschaften des Modells selbst und den Eigenschaften, mit denen es in einem bestimmten Netzwerk bereitgestellt wird, zu unterscheiden. Wenn das Modell im dezentralen Gonka-Netzwerk läuft, werden seine Betriebsparameter durch die vLLM-Inferenzkonfiguration auf der Seite der GPU-Hosts bestimmt und nicht nur durch die Modellarchitektur. Hier sind die tatsächlichen Werte, die unser Gateway liefert:

Kontextfenster: 200.000 Token (ca. 150.000 Wörter). Dies ist die Subnet-Konfiguration im Gonka-Netzwerk. Die MiniMax-Architektur selbst unterstützt ein wesentlich längeres Kontextfenster, aber die praktische Obergrenze wird zu jedem Zeitpunkt durch die Inferenz-Einstellungen auf den Hosts bestimmt.
Maximale Ausgabe: 8.192 Token pro Antwort. Diese Zahl wurde empirisch gemessen – durch eine Anfrage mit erzwungener langer Generierung, die an die Obergrenze stieß (finish_reason: length). Derzeit ist diese Obergrenze für alle Modelle im Netzwerk gleich – bis zu 8.192 Token. Dies ist kein Limit des Modells selbst, sondern eine Konfiguration des vLLM-Subnets.
VRAM-Anforderung des Hosts: ca. 320 GB VRAM pro Node. Dies ist eine typische Anforderung für ein großes MoE-Modell in FP8-Quantisierung – die gleichen 320 GB werden auch für Kimi K2.6 benötigt. In der Praxis bedeutet dies mehrere GPUs der Klasse H100/H200, die zu einem einzigen Node zusammengefasst sind.

Der Preis für die Inferenz im Gonka-Netzwerk hängt nicht von der Modellwahl ab, sondern wird durch Netzwerkparameter bestimmt: Über das JoinGonka Gateway ist MiniMax M2.7 zum gleichen Satz verfügbar wie Kimi K2.6. Der einheitliche Preis ist eine Folge davon, dass das Netzwerk auf einer einheitlichen Berechnung der Kosten für Rechenleistung basiert und nicht auf den Preisen eines bestimmten Anbieters.

MiniMax M2.7 und Kimi K2.6 – Vergleich der Gonka-Modelle

Ein Nutzer im Gonka-Netzwerk hat die Wahl zwischen zwei Flaggschiff-Modellen, die beide über eine einheitliche, OpenAI-kompatible Schnittstelle, das JoinGonka Gateway, verfügbar sind. Der folgende Vergleich hilft nicht dabei zu verstehen, „welches besser ist“, sondern für welche Aufgabenprofile das jeweilige Modell optimiert wurde.

Eigenschaft	MiniMax M2.7	Kimi K2.6
Hersteller	MiniMax (Shanghai)	Moonshot AI (Peking)
Architektur	MoE + lineare Attention	MoE
Kontext in Gonka	200.000 Token	200.000 Token
Max. Ausgabe	8.192 Token	8.192 Token
Historische Stärken	Langer Kontext, effiziente Attention	Reasoning, langer Kontext
API-Identifikator	`MiniMaxAI/MiniMax-M2.7`	`moonshotai/Kimi-K2.6`
Netzwerkstatus	Gelauncht durch Upgrade v0.2.13 (Mai 2026)	Gelauncht durch DevShards (Mai 2026)

Ein wichtiger Hinweis zu Benchmarks im Jahr 2026: Die Lücke zwischen den besten Open-Weights-Modellen bei öffentlichen Tests hat sich auf wenige Prozentpunkte verringert, und dieser Unterschied liegt oft innerhalb der statistischen Fehlermarge der Benchmarks selbst. Für die praktische Arbeit ist nicht die absolute Platzierung im MMLU-Ranking wichtig, sondern der Charakter der Aufgabe: Kontextlänge, Komplexität logischer Ketten, benötigte Sprache, Vorhandensein von Tool Calling.

Praktische Orientierung: Für Aufgaben mit sehr langen Dokumenten und Streaming-Verarbeitung großer Textmengen ist es sinnvoll, MiniMax M2.7 zu testen – die effiziente Attention ihrer Serie ist historisch auf solche Szenarien spezialisiert. Für Reasoning-Aufgaben mit komplexer Logik und langem Kontext sollten die Antworten mit Kimi K2.6 verglichen werden. Die beste Strategie in der Produktion besteht darin, beide Modelle im Code zu halten und per Parameter model zwischen ihnen zu wechseln, ohne die Architektur der Anwendung zu ändern.

Wie Gonka MiniMax M2.7 gestartet hat: Upgrade v0.2.13

Das Hinzufügen von MiniMax M2.7 ist kein „Hochladen einer Datei auf den Server“, sondern das Ergebnis eines Netzwerk-Upgrades, das durch eine on-chain Abstimmung erfolgte. Die Unterstützung des Modells wurde in das Protokoll-Release v0.2.13 aufgenommen, das durch Proposal #54 genehmigt wurde: Es wurde am 21. Mai 2026 angenommen (mit etwa 63% der Stimmen „dafür“) und auf einer festgelegten Blockhöhe aktiviert. Dies ist derselbe Governance-Mechanismus, über den das Netzwerk alle wesentlichen Änderungen vornimmt — von Tarifen bis hin zu neuen Modellen.

Multimodalität für ein dezentrales Netzwerk ist ein grundlegender Schritt. Ein Netzwerk, das an ein einziges Modell gebunden ist, ist fundamental fragil: Das Erscheinen einer neuen Modellversion wird zu einer Migrationskrise, und jeder Ausfall des einzigen Modells lässt den gesamten Dienst zusammenbrechen. Ein Netzwerk, das mehrere Modelle gleichzeitig unterstützen kann, entwickelt sich sanft: Neue Modelle werden als zusätzliche „Spuren“ hinzugefügt, alte laufen weiter, und GPU-Hosts haben die Wahl, was sie bedienen. Technisch lebt jedes Modell in seinem eigenen Netzwerk-Shard — derselbe Mechanismus (DevShards) wurde bereits zuvor für den Start von Kimi K2.6 verwendet.

Ein separates Detail der Anfangsphasen: Zwischen dem Zeitpunkt, an dem das Modell in der Netzwerkliste erscheint, und dem Zeitpunkt, an dem es für alle Clients geöffnet ist, kann eine Verzögerung liegen. In der ersten Zeit war der Inferenz-Betrieb von MiniMax M2.7 im Broker-Modus nur für privilegierte Keys verfügbar und gab bei normalen Anfragen einen Fehler aus — eine normale Testphase. Ende Mai 2026 wurde der öffentliche Zugriff freigeschaltet, und das Modell wurde für alle Gateway-Kunden zugänglich. Weitere Details dazu, wie das Netzwerk aufgebaut ist und warum Modelle auf diese Weise gestartet werden, finden Sie im Artikel über die Gonka Netzwerkarchitektur.

Dasselbe MiniMax M2.7 über OpenRouter kostet $0.279/$1.20 pro 1M, im Vergleich zu $0.003/$0.009 bei JoinGonka.

So verwenden Sie MiniMax M2.7 über das JoinGonka Gateway

Der direkteste Weg führt über das JoinGonka API Gateway. Da das Gateway eine OpenAI-kompatible API bereitstellt, funktioniert derselbe Code, den Sie für GPT, Claude oder Kimi verwenden, auch für MiniMax, sobald Sie den Wert des Feldes model ändern.

Ein minimales Beispiel via curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Erkläre kurz, was lineare Attention ist"}
    ]
  }'

Derselbe Request in Python unter Verwendung der openai Bibliothek:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Hallo, MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) – für interaktive Interfaces, bei denen die Antwort während der Generierung angezeigt wird:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Schreibe ein kurzes Essay über langen Kontext"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Bei der Registrierung im JoinGonka Gateway erhalten Sie 10 Millionen kostenlose Token zum Testen beliebiger Modelle im Netzwerk – dies reicht aus, um beide Modelle des Netzwerks für Ihre eigenen Aufgaben zu vergleichen.

Kompatibilität mit Entwickler-Tools: Alles, was mit der OpenAI API funktioniert, funktioniert auch mit MiniMax über das Gateway. Es genügt, den Parameter model zu ändern:

Cursor: Geben Sie in den Custom Model-Einstellungen MiniMaxAI/MiniMax-M2.7 an
Claude Code, Cline, Continue.dev: Modellname in der Config
LangChain, n8n: Parameter model bei der Client-Initialisierung

Eine aktuelle Liste der Modelle ist immer über den Endpunkt GET /v1/models verfügbar – von dort aus ist es praktisch, sie dynamisch abzurufen, damit die UI Ihrer Anwendung immer die neuesten Optionen anzeigt. Wenn die Antwort 429 too many concurrent requests lautet, ist dies eine normale Phase für ein frisches Modell in der frühen Wachstumsphase des Netzwerks: Wiederholen Sie die Anfrage einfach nach einigen Sekunden.

Wann MiniMax M2.7 wählen – praktische Szenarien

Der Vorteil, zwei Modelle in einem Netzwerk zu haben, liegt darin, dass Sie für verschiedene Aufgaben unterschiedliche Werkzeuge wählen können, ohne den Anbieter oder den Integrationscode zu ändern. Hier sind Szenarien, in denen es sinnvoll ist, mit dem Testen von MiniMax M2.7 zu beginnen.

Analyse langer Dokumente. Wenn die Aufgabe die Zusammenfassung von Verträgen, die Analyse technischer Dokumentationen oder die Verarbeitung umfangreicher juristischer oder finanzieller Texte ist, ist die effiziente Attention der M-Serie historisch darauf ausgelegt, langen Kontext ohne drastischen Kostenanstieg beizubehalten. Übergeben Sie das Dokument vollständig in einer Anfrage und lassen Sie das Modell das gesamte Volumen auf einmal verarbeiten, anstatt in Fragmenten.

RAG und Arbeit mit Wissensdatenbanken. In Retrieval-Augmented Szenarien, in denen Dutzende Fragmente aus einer Vektordatenbank in den Kontext gemischt werden, wirkt sich die Fähigkeit des Modells, viele heterogene Textteile beizubehalten, direkt auf die Antwortqualität aus. Dies ist eine natürliche Nische für Modelle mit langem Kontext.

Verarbeitung von Transkripten und Logs. Transkripte von Anrufen, lange Support-Dialoge, Streaming-Logs – Aufgaben, bei denen das Eingangsvolumen groß ist, die Antwort aber normalerweise kurz ausfällt. Hier stört das Output-Limit von 8 192 Tokens nicht: Man gibt viel hinein und erhält eine Zusammenfassung oder extrahierte Fakten heraus.

Wann man ein anderes Modell wählen sollte. Aktuell liefern alle Modelle im Netzwerk bis zu 8 192 Tokens in einer Antwort. Wenn Ihre Anwendung also eine sehr lange Antwort in einer einzigen Anfrage benötigt (großes generiertes Dokument, umfangreicher Codeabschnitt), planen Sie dieses Limit in Ihrer Architektur ein und unterteilen Sie die Generation in Teile. Für Aufgaben mit komplexem, mehrstufigem Schlussfolgern sollten Sie die Ergebnisse mit Kimi K2.6 vergleichen. Universeller Rat: Führen Sie dieselbe Menge Ihrer realen Anfragen durch beide Modelle und vergleichen Sie die Ergebnisse – die 10 Millionen kostenlosen Token bei der Registrierung reichen für einen umfassenden Vergleichstest aus.

Technisch gesehen ist der Wechsel zwischen Modellen nur eine Änderung einer Zeile im Feld model. Daher wählt eine intelligente Anwendungsarchitektur auf dem Gonka-Netzwerk das Modell nicht für immer aus, sondern ermöglicht die Routung von Anfragen zwischen Kimi K2.6 und MiniMax M2.7 je nach Aufgabentyp – günstiger Inference macht eine solche Routung wirtschaftlich sinnvoll.

MiniMax M2.7 ist ein MoE-Modell des Shanghaier Labors MiniMax, das im Mai 2026 neben Kimi K2.6 in das Gonka-Netzwerk aufgenommen wurde (die Unterstützung wurde mit dem Protokoll-Upgrade v0.2.13, Proposal #54 eingeführt); Ende Mai wurde der öffentliche Inference für alle freigeschaltet. Im Gonka-Netzwerk arbeitet das Modell mit einem Kontext von 200 000 Tokens und einem Output-Limit von 8 192 Tokens pro Node mit ~320 GB VRAM. Über das JoinGonka Gateway ist es via OpenAI-kompatibler API zugänglich; der Modell-Identifier lautet MiniMaxAI/MiniMax-M2.7. Die M-Serie zeichnet sich historisch durch eine effiziente Attention und einen langen Kontext aus.

← Kimi K2.6: Das zweite Modell des Gonka-Netzwerks

Möchten Sie mehr erfahren?

Erkunden Sie andere Abschnitte oder beginnen Sie jetzt GNK zu verdienen.

MiniMax M2.7 über Gateway testen →