Abschnitte der Wissensbasis ▾
Für Anfänger
Für Investoren
- Woher kommt der Wert des GNK-Tokens
- Gonka vs. Konkurrenten: Render, Akash, io.net
- Die Libermans: von der Biophysik zur dezentralen KI
- GNK Tokenomics
- Risiken und Perspektiven von Gonka: Objektive Analyse
- Gonka vs Render Network: detaillierter Vergleich
- Gonka vs Akash: KI-Inferenz vs Container
- Gonka vs io.net: Inferenz vs GPU-Marktplatz
- Gonka vs Bittensor: Ein detaillierter Vergleich zweier AI-Ansätze
- Gonka vs Flux: Zwei Ansätze zum nützlichen Mining
- Governance in Gonka: Wie ein dezentrales Netzwerk verwaltet wird
Technisch
- Gonka Netzwerkarchitektur: Sprint, Transfer Agents, DiLoCo
- Entwickler: Wie man GNK verdient
- Eigenes Hosting: Schritt-für-Schritt-Anleitung
- GPU-Auswahl für Gonka: Hardware-Empfehlungen
- Qwen3-235B: Das Modell, das Gonka mined
- Kimi K2.6: Das zweite Modell des Gonka-Netzwerks
- MiniMax M2.7: Drittes Modell des Gonka-Netzwerks
Analysen
- Goka — Linux für die KI-Ära
- Killer Switch: Warum ist die Dezentralisierung der KI notwendig?
- Treibstoff, kein Gold – vom digitalen Gold zum KI-Treibstoff
- Proof of Useful Work: Der vollständige Leitfaden zum nützlichen Mining
- 112 Mrd. US-Dollar Loch – die versteckte Pleite von Big Tech
- DePIN-Projekte 2026: Umfassender Überblick und Vergleich
Werkzeuge
- Cursor + Gonka AI – günstige LLM zum Codieren
- Claude Code + Gonka AI – LLM für das Terminal
- OpenClaw + Gonka AI – erschwingliche KI-Agenten
- OpenCode + Gonka AI – kostenlose KI für Code
- Continue.dev + Gonka AI – AI für VS Code/JetBrains
- Cline + Gonka AI – KI-Agent in VS Code
- Aider + Gonka AI – Paarprogrammierung mit KI
- LangChain + Gonka AI – KI-Anwendungen für wenige Cent
- n8n + Gonka AI – Automatisierung mit günstiger KI
- Open WebUI + Gonka AI – Ihr eigenes ChatGPT
- LibreChat + Gonka AI — Open-Source ChatGPT
- API Schnellstart — curl, Python, TypeScript
- JoinGonka Gateway — vollständige Übersicht
- Management Keys – SaaS auf Gonka
- Die günstigste AI API: Anbietervergleich 2026
- Cursor Pro Request Limit erreicht – echte Aufschlüsselung und günstige Alternative
- Claude Code günstigere Alternative – Aufschlüsselung der Rechnung und Wechsel
- Cline hat Dollars verbrannt – warum der Agent Geld verbrennt
- OpenClaw zu teuer – warum Agent Token verbrennt und wie man spart
- OpenRouter günstigere Alternative – Vergleich vs JoinGonka Gateway
Technologie
MiniMax M2.7: Drittes Modell des Gonka-Netzwerks
Im Frühjahr 2026 entwickelte sich das Gonka-Netzwerk von einem Ein-Modell- zu einem Mehrmodell-Netzwerk. Zuerst wurde das Flaggschiff Qwen3-235B durch Kimi K2.6 ergänzt, und Ende Mai 2026 kam das dritte Modell hinzu, MiniMax M2.7 vom chinesischen Labor MiniMax. Dies ist der erste Moment in der Geschichte des Netzwerks, in dem es gleichzeitig drei unabhängige große Sprachmodelle bedient.
Wir werden untersuchen, was MiniMax M2.7 ist, wer dahintersteckt, welche Eigenschaften es speziell im Gonka-Netzwerk hat, wie es sich von den beiden bereits laufenden Modellen unterscheidet und wie Sie über unser API Gateway über ein OpenAI-kompatibles Protokoll darauf zugreifen können.
Was ist MiniMax M2.7 und wer steht hinter dem Modell?
MiniMax M2.7 ist ein großes Sprachmodell (LLM) des Unternehmens MiniMax mit Sitz in Shanghai. MiniMax wurde 2021 von einem Forscherteam unter der Leitung von Yan Junjie (ehemals bei SenseTime) gegründet und stieg schnell zu den führenden KI-Laboren Chinas auf. Das Unternehmen erhielt Finanzierungen von Alibaba, Tencent und HongShan – dem gleichen Kreis strategischer Investoren, der auch hinter anderen „chinesischen KI-Tigern“ steht, darunter Moonshot AI, dem Entwickler von Kimi K2.6.
Abgesehen von reinen Sprachmodellen ist MiniMax für Konsumgüter bekannt: die Chat-Assistenten Talkie und Hailuo sowie einen der bemerkenswertesten Videogeneratoren der Branche. Für das Gonka-Netzwerk ist jedoch die M-Serie der Textmodelle wichtig – die Nachfolger der früheren abab-Modelle.
Das Hauptarchitekturmerkmal der M-Serie ist der Fokus auf einen effizienten Aufmerksamkeitsmechanismus. Während frühere große Modelle klassische quadratische Aufmerksamkeit (Rechenkosten steigen proportional zum Quadrat der Kontextlänge) verwendeten, war MiniMax eines der ersten Unternehmen, das eine hybride lineare Aufmerksamkeit veröffentlichte. Dies ermöglicht die Verarbeitung sehr langer Sequenzen ohne explosionsartiges Wachstum der Rechenkosten – ein historisches Markenzeichen der Serie. Wie Qwen3-235B und Kimi K2.6 basiert das Modell auf der Architektur MoE (Mixture of Experts): Hunderte von Milliarden Parametern „auf dem Papier“, aber bei jeder Anfrage wird nur ein kleiner Teil davon aktiviert, was die Inferenzkosten radikal senkt.
Im Gonka-Netzwerk wird das Modell als MiniMaxAI/MiniMax-M2.7 identifiziert – genau dieser String muss im Feld model der API-Anfrage übergeben werden. Version M2.7 ist die neueste Iteration der M-Serie zum Zeitpunkt der Veröffentlichung des Artikels.
Eigenschaften von MiniMax M2.7 im Gonka-Netzwerk
Es ist wichtig, die Eigenschaften des Modells „out of the box“ von den Eigenschaften zu unterscheiden, mit denen es in einem bestimmten Netzwerk bereitgestellt wird. Wenn das Modell in einem dezentralen Gonka-Netzwerk läuft, werden seine Betriebsparameter durch die vLLM-Inferenzkonfiguration auf den GPU-Hosts und nicht nur durch die Modellarchitektur festgelegt. Hier sind die tatsächlichen Werte, die unser Gateway liefert:
- Kontextfenster: 131.072 Tokens (ca. 100.000 Wörter). Dies ist die Subnet-Konfiguration im Gonka-Netzwerk. Die MiniMax-Architektur selbst unterstützt deutlich längere Kontexte, aber die praktische Obergrenze wird jederzeit durch die Inference-Einstellung auf den Hosts bestimmt.
- Maximale Ausgabe: 4.096 Tokens pro Antwort. Diese Zahl wurde empirisch gemessen – durch eine Anfrage mit erzwungener langer Generierung, die auf die Obergrenze stieß (finish_reason: length). Zum Vergleich: bei Qwen3-235B beträgt diese Obergrenze 8.192, bei Kimi K2.6 3.072 Tokens. Dies ist keine Grenze des Modells selbst, sondern der vLLM-Subnet-Konfiguration.
- VRAM-Anforderung des Hosts: ca. 320 GB VRAM pro Node. Dies ist eine typische Anforderung für ein großes MoE-Modell in der FP8-Quantisierung – die gleichen 320 GB werden für Qwen3-235B und Kimi K2.6 benötigt. In der Praxis bedeutet dies mehrere GPUs der Klasse H100/H200, die zu einem Node zusammengefasst sind.
Der Preis für die Inferenz im Gonka-Netzwerk hängt nicht von der Modellwahl ab und wird durch Netzwerkparameter bestimmt: Über das JoinGonka Gateway ist MiniMax M2.7 zum gleichen Preis wie Qwen und Kimi erhältlich. Der einheitliche Preis ist eine Folge der Tatsache, dass das Netzwerk auf einer einzigen Kostenberechnung für Rechenarbeit basiert und nicht auf dem Preis eines bestimmten Anbieters.
MiniMax M2.7, Qwen3-235B und Kimi K2.6 – Vergleich der drei Gonka-Modelle
Zum ersten Mal hat der Nutzer des Gonka-Netzwerks die Wahl zwischen drei Flaggschiff-Modellen, und alle drei sind über die einheitliche OpenAI-kompatible Schnittstelle des JoinGonka Gateway zugänglich. Der untenstehende Vergleich hilft zu verstehen, nicht „welches besser ist“, sondern für welches Aufgabenprofil jedes optimiert ist.
| Eigenschaft | MiniMax M2.7 | Qwen3-235B | Kimi K2.6 |
|---|---|---|---|
| Hersteller | MiniMax (Shanghai) | Alibaba Cloud (Hangzhou) | Moonshot AI (Peking) |
| Architektur | MoE + linearer Attention | MoE (235B/22B aktiv) | MoE |
| Kontext in Gonka | 131.072 Tokens | 131.072 Tokens | 131.072 Tokens |
| Max. Ausgabe | 4.096 Tokens | 8.192 Tokens | 3.072 Tokens |
| Historische Stärke | Langer Kontext, effizienter Attention | Mehrsprachigkeit (119 Sprachen), Tool Calling | Reasoning, langer Kontext |
| API-Identifikator | MiniMaxAI/MiniMax-M2.7 | Qwen/Qwen3-235B-A22B-Instruct-2507-FP8 | moonshotai/Kimi-K2.6 |
| Status im Netzwerk | Gestartet über Upgrade v0.2.13 (Mai 2026) | Stabil seit August 2025 | Gestartet über DevShards (Mai 2026) |
Eine wichtige Einschränkung zu Benchmarks im Jahr 2026: Der Abstand zwischen Top-Open-Weights-Modellen in öffentlichen Tests ist auf wenige Prozent geschrumpft, und dieser Unterschied liegt oft innerhalb des statistischen Fehlers der Benchmarks selbst. Für die praktische Arbeit ist nicht der absolute Platz im MMLU-Ranking entscheidend, sondern die Art der Aufgabe: Kontextlänge, Komplexität logischer Ketten, gewünschte Sprache, Vorhandensein von Tool Calling.
Praktische Orientierung: Für Aufgaben mit sehr langen Dokumenten und der Batch-Verarbeitung großer Textmengen lohnt es sich, MiniMax M2.7 zu testen – der effiziente Attention seiner Serie ist historisch für solche Szenarien ausgelegt. Für universelle mehrsprachige Arbeit und stabiles Tool Calling in der Produktion ist Qwen3-235B die bewährte Option. Für Reasoning-Aufgaben mit komplexer Logik – Kimi K2.6. Die beste Strategie in der Produktion ist, alle drei Modelle im Code zu halten und mit einem einzigen model-Parameter zwischen ihnen zu wechseln, ohne die Anwendungsarchitektur zu ändern.
Wie Gonka das dritte Modell startete: Upgrade v0.2.13
Das Hinzufügen von MiniMax M2.7 ist kein „Hochladen einer Datei auf den Server“, sondern das Ergebnis eines Netzwerk-Upgrades, das durch eine On-Chain-Abstimmung durchlaufen wurde. Die Modellunterstützung wurde in das Protokoll-Release v0.2.13 aufgenommen, das durch den Vorschlag #54 genehmigt wurde: Es wurde am 21. Mai 2026 angenommen (ca. 63% der Stimmen „Zustimmung“) und auf einer bestimmten Blockhöhe aktiviert. Dies ist derselbe Governance-Mechanismus, über den das Netzwerk alle wichtigen Änderungen akzeptiert – von Tarifen bis hin zu neuen Modellen.
Multimodellfähigkeit für ein dezentrales Netzwerk ist ein prinzipieller Schritt. Ein Netzwerk, das an ein einziges Modell gebunden ist, ist fundamental fragil: Die Veröffentlichung einer neuen Modellversion wird zu einer Migrationskrise, und jeder Ausfall des einzigen Modells lässt den gesamten Dienst zusammenbrechen. Ein Netzwerk, das mehrere Modelle gleichzeitig halten kann, entwickelt sich sanft: Neue Modelle werden als zusätzliche „Spuren“ hinzugefügt, alte arbeiten weiter, und GPU-Hosts erhalten die Wahl, was sie bedienen möchten. Technisch gesehen lebt jedes Modell in seinem eigenen Shard des Netzwerks – derselbe Mechanismus (DevShards) wurde zuvor für den Start von Kimi K2.6 verwendet.
Ein besonderer Aspekt der frühen Phasen: Zwischen „Modell ist in der Netzwerkliste erschienen“ und „Modell ist für alle Kunden geöffnet“ kann es eine Verzögerung geben. Zunächst war die MiniMax M2.7 Inferenz im Broker-Modus nur privilegierten Schlüsseln zugänglich und gab für normale Anfragen einen Fehler zurück – eine normale Testphase. Ende Mai 2026 wurde der öffentliche Zugang geöffnet, und das Modell wurde allen Gateway-Kunden zugänglich. Weitere Informationen zur Funktionsweise des Netzwerks und warum Modelle auf diese Weise gestartet werden, finden Sie im Artikel über die Netzwerkarchitektur von Gonka.
So verwenden Sie MiniMax M2.7 über das JoinGonka Gateway
Der direkteste Weg führt über das JoinGonka API Gateway. Da das Gateway eine OpenAI-kompatible API bereitstellt, funktioniert derselbe Code, der mit GPT, Claude, Qwen oder Kimi arbeitet, auch mit MiniMax, nachdem der Wert des Feldes model geändert wurde.
Minimalbeispiel über curl:
curl https://gate.joingonka.ai/v1/chat/completions \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "MiniMaxAI/MiniMax-M2.7",
"messages": [
{"role": "user", "content": "Erkläre kurz, was linearer Attention ist"}
]
}'Die gleiche Anfrage in Python über die Bibliothek openai:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://gate.joingonka.ai/v1",
)
response = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.7",
messages=[{"role": "user", "content": "Hallo, MiniMax"}],
)
print(response.choices[0].message.content)Streaming (Server-Sent Events) – für interaktive Oberflächen, bei denen die Antwort während der Generierung angezeigt wird:
stream = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.7",
messages=[{"role": "user", "content": "Schreibe ein kurzes Essay über langen Kontext"}],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)Wenn Sie sich bei JoinGonka Gateway registrieren, erhalten Sie 10 Millionen kostenlose Tokens, um beliebige Modelle des Netzwerks zu testen – das reicht aus, um alle drei Modelle bei Ihren eigenen Aufgaben zu vergleichen.
Kompatibilität mit Entwicklungstools: Alles, was mit der OpenAI-API funktioniert, funktioniert auch mit MiniMax über das Gateway. Es reicht, den Parameter model zu ändern:
- Cursor: Geben Sie in den Einstellungen des Custom Model
MiniMaxAI/MiniMax-M2.7an - Claude Code, Cline, Continue.dev: Modellname im Konfigurationsfile
- LangChain, n8n: Parameter
modelbei der Initialisierung des Clients
Die aktuelle Liste der Modelle ist immer im Endpoint GET /v1/models verfügbar – von dort aus lässt sie sich bequem dynamisch abrufen, damit die Benutzeroberfläche Ihrer Anwendung selbst den aktuellen Satz anzeigt. Wenn als Antwort 429 too many concurrent requests zurückkommt – eine normale Phase für ein neues Modell in der frühen Wachstumsphase des Netzwerks: wiederholen Sie die Anfrage nach einigen Sekunden.
Wann MiniMax M2.7 wählen – praktische Szenarien
Die Verfügbarkeit von drei Modellen in einem Netzwerk ist wertvoll, da für verschiedene Aufgaben unterschiedliche Tools ausgewählt werden können, ohne den Anbieter oder den Integrationscode zu ändern. Hier sind Szenarien, in denen es sinnvoll ist, das Testen mit MiniMax M2.7 zu beginnen.
Analyse langer Dokumente. Wenn die Aufgabe darin besteht, Verträge zusammenzufassen, technische Dokumente zu analysieren, große juristische oder finanzielle Texte zu verarbeiten, ist der effiziente Attention der M-Serie historisch darauf ausgelegt, lange Kontexte ohne drastischen Kostenanstieg zu verwalten. Übertragen Sie das gesamte Dokument in einer einzigen Anfrage und bitten Sie das Modell, den gesamten Umfang sofort zu verarbeiten, anstatt in Teilen.
RAG und Arbeit mit Wissensdatenbanken. In Retrieval-Augmented-Szenarien, in denen Dutzende von Fragmenten aus einer Vektordatenbank in den Kontext gemischt werden, wirkt sich die Fähigkeit des Modells, viele verschiedene Textteile zu speichern, direkt auf die Qualität der Antwort aus. Dies ist eine natürliche Nische für Modelle mit langem Kontext.
Verarbeitung von Transkripten und Logs. Telefonatsmitschnitte, lange Support-Dialoge, Streaming-Protokolle – Aufgaben, bei denen die Eingabemenge groß ist, die Antwort aber normalerweise kurz. Hier stört die Ausgabeobergrenze von 4.096 Tokens nicht: Viel geht hinein, eine Zusammenfassung oder extrahierte Fakten kommen heraus.
Wann sollte man ein anderes Modell wählen? Wenn Ihre Anwendung eine sehr lange Antwort in einer einzigen Anfrage benötigt (ein großes generiertes Dokument, ein umfangreicher Codeausschnitt), denken Sie an die Ausgabeobergrenze von 4.096 Tokens – bei Qwen3-235B ist diese doppelt so hoch (8.192). Wenn stabiles natives Tool Calling in der Produktion eine Schlüsselrolle spielt – Qwen3-235B ist bisher länger erprobt. Für Aufgaben mit komplexen mehrstufigen Überlegungen lohnt es sich, die Antworten mit Kimi K2.6 zu vergleichen. Allgemeiner Ratschlag: Führen Sie denselben Satz Ihrer tatsächlichen Anfragen mit allen drei Modellen durch und vergleichen Sie die Ergebnisse – die kostenlosen 10 Millionen Tokens bei der Registrierung reichen für einen vollständigen vergleichenden Test aus.
Technisch gesehen ist das Umschalten zwischen Modellen eine Änderung einer Zeile im Feld model. Eine gute Anwendungsarchitektur im Gonka-Netzwerk „wählt das Modell nicht für immer“, sondern ermöglicht es, Anfragen je nach Aufgabentyp zwischen Qwen, Kimi und MiniMax zu routen – die kostengünstige Inferenz macht eine solche Weiterleitung wirtschaftlich rentabel.
Möchten Sie mehr erfahren?
Erkunden Sie andere Abschnitte oder beginnen Sie jetzt GNK zu verdienen.
MiniMax M2.7 über Gateway testen →