Abschnitte der Wissensbasis ▾

Werkzeuge

Technologie

MiniMax M2.7: Drittes Modell des Gonka-Netzwerks

Im Frühjahr 2026 entwickelte sich das Gonka-Netzwerk von einem Ein-Modell- zu einem Mehrmodell-Netzwerk. Zuerst wurde das Flaggschiff Qwen3-235B durch Kimi K2.6 ergänzt, und Ende Mai 2026 kam das dritte Modell hinzu, MiniMax M2.7 vom chinesischen Labor MiniMax. Dies ist der erste Moment in der Geschichte des Netzwerks, in dem es gleichzeitig drei unabhängige große Sprachmodelle bedient.

Wir werden untersuchen, was MiniMax M2.7 ist, wer dahintersteckt, welche Eigenschaften es speziell im Gonka-Netzwerk hat, wie es sich von den beiden bereits laufenden Modellen unterscheidet und wie Sie über unser API Gateway über ein OpenAI-kompatibles Protokoll darauf zugreifen können.

Was ist MiniMax M2.7 und wer steht hinter dem Modell?

MiniMax M2.7 ist ein großes Sprachmodell (LLM) des Unternehmens MiniMax mit Sitz in Shanghai. MiniMax wurde 2021 von einem Forscherteam unter der Leitung von Yan Junjie (ehemals bei SenseTime) gegründet und stieg schnell zu den führenden KI-Laboren Chinas auf. Das Unternehmen erhielt Finanzierungen von Alibaba, Tencent und HongShan – dem gleichen Kreis strategischer Investoren, der auch hinter anderen „chinesischen KI-Tigern“ steht, darunter Moonshot AI, dem Entwickler von Kimi K2.6.

Abgesehen von reinen Sprachmodellen ist MiniMax für Konsumgüter bekannt: die Chat-Assistenten Talkie und Hailuo sowie einen der bemerkenswertesten Videogeneratoren der Branche. Für das Gonka-Netzwerk ist jedoch die M-Serie der Textmodelle wichtig – die Nachfolger der früheren abab-Modelle.

Das Hauptarchitekturmerkmal der M-Serie ist der Fokus auf einen effizienten Aufmerksamkeitsmechanismus. Während frühere große Modelle klassische quadratische Aufmerksamkeit (Rechenkosten steigen proportional zum Quadrat der Kontextlänge) verwendeten, war MiniMax eines der ersten Unternehmen, das eine hybride lineare Aufmerksamkeit veröffentlichte. Dies ermöglicht die Verarbeitung sehr langer Sequenzen ohne explosionsartiges Wachstum der Rechenkosten – ein historisches Markenzeichen der Serie. Wie Qwen3-235B und Kimi K2.6 basiert das Modell auf der Architektur MoE (Mixture of Experts): Hunderte von Milliarden Parametern „auf dem Papier“, aber bei jeder Anfrage wird nur ein kleiner Teil davon aktiviert, was die Inferenzkosten radikal senkt.

Im Gonka-Netzwerk wird das Modell als MiniMaxAI/MiniMax-M2.7 identifiziert – genau dieser String muss im Feld model der API-Anfrage übergeben werden. Version M2.7 ist die neueste Iteration der M-Serie zum Zeitpunkt der Veröffentlichung des Artikels.

Eigenschaften von MiniMax M2.7 im Gonka-Netzwerk

Es ist wichtig, die Eigenschaften des Modells „out of the box“ von den Eigenschaften zu unterscheiden, mit denen es in einem bestimmten Netzwerk bereitgestellt wird. Wenn das Modell in einem dezentralen Gonka-Netzwerk läuft, werden seine Betriebsparameter durch die vLLM-Inferenzkonfiguration auf den GPU-Hosts und nicht nur durch die Modellarchitektur festgelegt. Hier sind die tatsächlichen Werte, die unser Gateway liefert:

  • Kontextfenster: 131.072 Tokens (ca. 100.000 Wörter). Dies ist die Subnet-Konfiguration im Gonka-Netzwerk. Die MiniMax-Architektur selbst unterstützt deutlich längere Kontexte, aber die praktische Obergrenze wird jederzeit durch die Inference-Einstellung auf den Hosts bestimmt.
  • Maximale Ausgabe: 4.096 Tokens pro Antwort. Diese Zahl wurde empirisch gemessen – durch eine Anfrage mit erzwungener langer Generierung, die auf die Obergrenze stieß (finish_reason: length). Zum Vergleich: bei Qwen3-235B beträgt diese Obergrenze 8.192, bei Kimi K2.6 3.072 Tokens. Dies ist keine Grenze des Modells selbst, sondern der vLLM-Subnet-Konfiguration.
  • VRAM-Anforderung des Hosts: ca. 320 GB VRAM pro Node. Dies ist eine typische Anforderung für ein großes MoE-Modell in der FP8-Quantisierung – die gleichen 320 GB werden für Qwen3-235B und Kimi K2.6 benötigt. In der Praxis bedeutet dies mehrere GPUs der Klasse H100/H200, die zu einem Node zusammengefasst sind.

Der Preis für die Inferenz im Gonka-Netzwerk hängt nicht von der Modellwahl ab und wird durch Netzwerkparameter bestimmt: Über das JoinGonka Gateway ist MiniMax M2.7 zum gleichen Preis wie Qwen und Kimi erhältlich. Der einheitliche Preis ist eine Folge der Tatsache, dass das Netzwerk auf einer einzigen Kostenberechnung für Rechenarbeit basiert und nicht auf dem Preis eines bestimmten Anbieters.

MiniMax M2.7, Qwen3-235B und Kimi K2.6 – Vergleich der drei Gonka-Modelle

Zum ersten Mal hat der Nutzer des Gonka-Netzwerks die Wahl zwischen drei Flaggschiff-Modellen, und alle drei sind über die einheitliche OpenAI-kompatible Schnittstelle des JoinGonka Gateway zugänglich. Der untenstehende Vergleich hilft zu verstehen, nicht „welches besser ist“, sondern für welches Aufgabenprofil jedes optimiert ist.

EigenschaftMiniMax M2.7Qwen3-235BKimi K2.6
HerstellerMiniMax (Shanghai)Alibaba Cloud (Hangzhou)Moonshot AI (Peking)
ArchitekturMoE + linearer AttentionMoE (235B/22B aktiv)MoE
Kontext in Gonka131.072 Tokens131.072 Tokens131.072 Tokens
Max. Ausgabe4.096 Tokens8.192 Tokens3.072 Tokens
Historische StärkeLanger Kontext, effizienter AttentionMehrsprachigkeit (119 Sprachen), Tool CallingReasoning, langer Kontext
API-IdentifikatorMiniMaxAI/MiniMax-M2.7Qwen/Qwen3-235B-A22B-Instruct-2507-FP8moonshotai/Kimi-K2.6
Status im NetzwerkGestartet über Upgrade v0.2.13 (Mai 2026)Stabil seit August 2025Gestartet über DevShards (Mai 2026)

Eine wichtige Einschränkung zu Benchmarks im Jahr 2026: Der Abstand zwischen Top-Open-Weights-Modellen in öffentlichen Tests ist auf wenige Prozent geschrumpft, und dieser Unterschied liegt oft innerhalb des statistischen Fehlers der Benchmarks selbst. Für die praktische Arbeit ist nicht der absolute Platz im MMLU-Ranking entscheidend, sondern die Art der Aufgabe: Kontextlänge, Komplexität logischer Ketten, gewünschte Sprache, Vorhandensein von Tool Calling.

Praktische Orientierung: Für Aufgaben mit sehr langen Dokumenten und der Batch-Verarbeitung großer Textmengen lohnt es sich, MiniMax M2.7 zu testen – der effiziente Attention seiner Serie ist historisch für solche Szenarien ausgelegt. Für universelle mehrsprachige Arbeit und stabiles Tool Calling in der Produktion ist Qwen3-235B die bewährte Option. Für Reasoning-Aufgaben mit komplexer Logik – Kimi K2.6. Die beste Strategie in der Produktion ist, alle drei Modelle im Code zu halten und mit einem einzigen model-Parameter zwischen ihnen zu wechseln, ohne die Anwendungsarchitektur zu ändern.

Wie Gonka das dritte Modell startete: Upgrade v0.2.13

Das Hinzufügen von MiniMax M2.7 ist kein „Hochladen einer Datei auf den Server“, sondern das Ergebnis eines Netzwerk-Upgrades, das durch eine On-Chain-Abstimmung durchlaufen wurde. Die Modellunterstützung wurde in das Protokoll-Release v0.2.13 aufgenommen, das durch den Vorschlag #54 genehmigt wurde: Es wurde am 21. Mai 2026 angenommen (ca. 63% der Stimmen „Zustimmung“) und auf einer bestimmten Blockhöhe aktiviert. Dies ist derselbe Governance-Mechanismus, über den das Netzwerk alle wichtigen Änderungen akzeptiert – von Tarifen bis hin zu neuen Modellen.

Multimodellfähigkeit für ein dezentrales Netzwerk ist ein prinzipieller Schritt. Ein Netzwerk, das an ein einziges Modell gebunden ist, ist fundamental fragil: Die Veröffentlichung einer neuen Modellversion wird zu einer Migrationskrise, und jeder Ausfall des einzigen Modells lässt den gesamten Dienst zusammenbrechen. Ein Netzwerk, das mehrere Modelle gleichzeitig halten kann, entwickelt sich sanft: Neue Modelle werden als zusätzliche „Spuren“ hinzugefügt, alte arbeiten weiter, und GPU-Hosts erhalten die Wahl, was sie bedienen möchten. Technisch gesehen lebt jedes Modell in seinem eigenen Shard des Netzwerks – derselbe Mechanismus (DevShards) wurde zuvor für den Start von Kimi K2.6 verwendet.

Ein besonderer Aspekt der frühen Phasen: Zwischen „Modell ist in der Netzwerkliste erschienen“ und „Modell ist für alle Kunden geöffnet“ kann es eine Verzögerung geben. Zunächst war die MiniMax M2.7 Inferenz im Broker-Modus nur privilegierten Schlüsseln zugänglich und gab für normale Anfragen einen Fehler zurück – eine normale Testphase. Ende Mai 2026 wurde der öffentliche Zugang geöffnet, und das Modell wurde allen Gateway-Kunden zugänglich. Weitere Informationen zur Funktionsweise des Netzwerks und warum Modelle auf diese Weise gestartet werden, finden Sie im Artikel über die Netzwerkarchitektur von Gonka.

So verwenden Sie MiniMax M2.7 über das JoinGonka Gateway

Der direkteste Weg führt über das JoinGonka API Gateway. Da das Gateway eine OpenAI-kompatible API bereitstellt, funktioniert derselbe Code, der mit GPT, Claude, Qwen oder Kimi arbeitet, auch mit MiniMax, nachdem der Wert des Feldes model geändert wurde.

Minimalbeispiel über curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Erkläre kurz, was linearer Attention ist"}
    ]
  }'

Die gleiche Anfrage in Python über die Bibliothek openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Hallo, MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) – für interaktive Oberflächen, bei denen die Antwort während der Generierung angezeigt wird:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Schreibe ein kurzes Essay über langen Kontext"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Wenn Sie sich bei JoinGonka Gateway registrieren, erhalten Sie 10 Millionen kostenlose Tokens, um beliebige Modelle des Netzwerks zu testen – das reicht aus, um alle drei Modelle bei Ihren eigenen Aufgaben zu vergleichen.

Kompatibilität mit Entwicklungstools: Alles, was mit der OpenAI-API funktioniert, funktioniert auch mit MiniMax über das Gateway. Es reicht, den Parameter model zu ändern:

Die aktuelle Liste der Modelle ist immer im Endpoint GET /v1/models verfügbar – von dort aus lässt sie sich bequem dynamisch abrufen, damit die Benutzeroberfläche Ihrer Anwendung selbst den aktuellen Satz anzeigt. Wenn als Antwort 429 too many concurrent requests zurückkommt – eine normale Phase für ein neues Modell in der frühen Wachstumsphase des Netzwerks: wiederholen Sie die Anfrage nach einigen Sekunden.

Wann MiniMax M2.7 wählen – praktische Szenarien

Die Verfügbarkeit von drei Modellen in einem Netzwerk ist wertvoll, da für verschiedene Aufgaben unterschiedliche Tools ausgewählt werden können, ohne den Anbieter oder den Integrationscode zu ändern. Hier sind Szenarien, in denen es sinnvoll ist, das Testen mit MiniMax M2.7 zu beginnen.

Analyse langer Dokumente. Wenn die Aufgabe darin besteht, Verträge zusammenzufassen, technische Dokumente zu analysieren, große juristische oder finanzielle Texte zu verarbeiten, ist der effiziente Attention der M-Serie historisch darauf ausgelegt, lange Kontexte ohne drastischen Kostenanstieg zu verwalten. Übertragen Sie das gesamte Dokument in einer einzigen Anfrage und bitten Sie das Modell, den gesamten Umfang sofort zu verarbeiten, anstatt in Teilen.

RAG und Arbeit mit Wissensdatenbanken. In Retrieval-Augmented-Szenarien, in denen Dutzende von Fragmenten aus einer Vektordatenbank in den Kontext gemischt werden, wirkt sich die Fähigkeit des Modells, viele verschiedene Textteile zu speichern, direkt auf die Qualität der Antwort aus. Dies ist eine natürliche Nische für Modelle mit langem Kontext.

Verarbeitung von Transkripten und Logs. Telefonatsmitschnitte, lange Support-Dialoge, Streaming-Protokolle – Aufgaben, bei denen die Eingabemenge groß ist, die Antwort aber normalerweise kurz. Hier stört die Ausgabeobergrenze von 4.096 Tokens nicht: Viel geht hinein, eine Zusammenfassung oder extrahierte Fakten kommen heraus.

Wann sollte man ein anderes Modell wählen? Wenn Ihre Anwendung eine sehr lange Antwort in einer einzigen Anfrage benötigt (ein großes generiertes Dokument, ein umfangreicher Codeausschnitt), denken Sie an die Ausgabeobergrenze von 4.096 Tokens – bei Qwen3-235B ist diese doppelt so hoch (8.192). Wenn stabiles natives Tool Calling in der Produktion eine Schlüsselrolle spielt – Qwen3-235B ist bisher länger erprobt. Für Aufgaben mit komplexen mehrstufigen Überlegungen lohnt es sich, die Antworten mit Kimi K2.6 zu vergleichen. Allgemeiner Ratschlag: Führen Sie denselben Satz Ihrer tatsächlichen Anfragen mit allen drei Modellen durch und vergleichen Sie die Ergebnisse – die kostenlosen 10 Millionen Tokens bei der Registrierung reichen für einen vollständigen vergleichenden Test aus.

Technisch gesehen ist das Umschalten zwischen Modellen eine Änderung einer Zeile im Feld model. Eine gute Anwendungsarchitektur im Gonka-Netzwerk „wählt das Modell nicht für immer“, sondern ermöglicht es, Anfragen je nach Aufgabentyp zwischen Qwen, Kimi und MiniMax zu routen – die kostengünstige Inferenz macht eine solche Weiterleitung wirtschaftlich rentabel.

MiniMax M2.7 – Ein MoE-Modell des Shanghai MiniMax Labors, das nach Qwen3-235B und Kimi K2.6 das dritte Modell des Gonka-Netzwerks wurde. Die Unterstützung wurde in das Protokoll-Upgrade v0.2.13 (Vorschlag #54, Mai 2026) aufgenommen; Ende Mai wurde der öffentliche Inference für alle geöffnet. Im Gonka-Netzwerk arbeitet das Modell mit einem Kontext von 131.072 Tokens und einer Ausgabeobergrenze von 4.096 Tokens pro Node mit ~320 GB VRAM. Über das JoinGonka Gateway ist es über eine OpenAI-kompatible API zugänglich; der Modellidentifikator ist MiniMaxAI/MiniMax-M2.7. Die M-Serie ist historisch stark durch effizienten Attention und langen Kontext.

Möchten Sie mehr erfahren?

Erkunden Sie andere Abschnitte oder beginnen Sie jetzt GNK zu verdienen.

MiniMax M2.7 über Gateway testen →