Abschnitte der Wissensbasis ▾
Für Anfänger
Für Investoren
- Woher kommt der Wert des GNK-Tokens
- Gonka vs. Konkurrenten: Render, Akash, io.net
- Die Libermans: von der Biophysik zur dezentralen KI
- GNK Tokenomics
- Risiken und Perspektiven von Gonka: Objektive Analyse
- Gonka vs Render Network: detaillierter Vergleich
- Gonka vs Akash: KI-Inferenz vs Container
- Gonka vs io.net: Inferenz vs GPU-Marktplatz
- Gonka vs Bittensor: Ein detaillierter Vergleich zweier AI-Ansätze
- Gonka vs Flux: Zwei Ansätze zum nützlichen Mining
- Governance in Gonka: Wie ein dezentrales Netzwerk verwaltet wird
Technisch
- Gonka Netzwerkarchitektur: Sprint, Transfer Agents, DiLoCo
- Entwickler: Wie man GNK verdient
- Eigenes Hosting: Schritt-für-Schritt-Anleitung
- GPU-Auswahl für Gonka: Hardware-Empfehlungen
- Qwen3-235B: Das Modell, das Gonka mined
- Kimi K2.6: Das zweite Modell des Gonka-Netzwerks
- MiniMax M2.7: das dritte Modell des Gonka-Netzwerks
Analysen
- Goka — Linux für die KI-Ära
- Killer Switch: Warum ist die Dezentralisierung der KI notwendig?
- Treibstoff, kein Gold – vom digitalen Gold zum KI-Treibstoff
- Proof of Useful Work: Der vollständige Leitfaden zum nützlichen Mining
- 112 Mrd. US-Dollar Loch – die versteckte Pleite von Big Tech
- DePIN-Projekte 2026: Umfassender Überblick und Vergleich
Werkzeuge
- Cursor + Gonka AI – günstige LLM zum Codieren
- Claude Code + Gonka AI – LLM für das Terminal
- OpenClaw + Gonka AI – erschwingliche KI-Agenten
- OpenCode + Gonka AI – kostenlose KI für Code
- Continue.dev + Gonka AI – AI für VS Code/JetBrains
- Cline + Gonka AI – KI-Agent in VS Code
- Aider + Gonka AI – Paarprogrammierung mit KI
- LangChain + Gonka AI – KI-Anwendungen für wenige Cent
- n8n + Gonka AI – Automatisierung mit günstiger KI
- Open WebUI + Gonka AI – Ihr eigenes ChatGPT
- LibreChat + Gonka AI — Open-Source ChatGPT
- Hermes Agent + Gonka AI – Autonomer Agent für ein paar Cent
- Kilo Code + Gonka AI – KI-Agent in VS Code
- Roo Code + Gonka AI – Autonomer KI-Agent in VS Code
- LlamaIndex + Gonka AI – RAG-Anwendungen für kleines Geld
- PydanticAI + Gonka – typisierte KI-Agenten für kleines Geld
- Vercel AI SDK + Gonka AI – KI-Anwendungen mit TypeScript für kleines Geld
- TanStack AI + Gonka – KI-Anwendungen mit TypeScript für kleines Geld
- API Schnellstart — curl, Python, TypeScript
- JoinGonka Gateway — vollständige Übersicht
- Management Keys – SaaS auf Gonka
- Die günstigste AI API: Anbietervergleich 2026
- Cursor Pro Request Limit erreicht – echte Aufschlüsselung und günstige Alternative
- Claude Code günstigere Alternative – Aufschlüsselung der Rechnung und Wechsel
- Cline hat Dollars verbrannt – warum der Agent Geld verbrennt
- OpenClaw zu teuer – warum Agent Token verbrennt und wie man spart
- OpenRouter günstigere Alternative – Vergleich vs JoinGonka Gateway
Technologie
MiniMax M2.7: das dritte Modell des Gonka-Netzwerks
Im Frühjahr 2026 entwickelte sich das Gonka-Netzwerk von einem Einzelmodell zu einem Mehrmodellnetzwerk. Zuerst wurde das Flaggschiff Qwen3-235B um Kimi K2.6 erweitert, und Ende Mai 2026 kam das dritte Modell hinzu, MiniMax M2.7 vom chinesischen Labor MiniMax. Dies ist der erste Moment in der Geschichte des Netzwerks, in dem es gleichzeitig drei unabhängige große Sprachmodelle bedient.
Wir analysieren, was MiniMax M2.7 ist, wer dahintersteckt, welche Eigenschaften es speziell im Gonka-Netzwerk hat, wie es sich von den beiden bereits laufenden Modellen unterscheidet und wie man über unser API Gateway über ein OpenAI-kompatibles Protokoll darauf zugreifen kann.
Was ist MiniMax M2.7 und wer steht hinter dem Modell?
MiniMax M2.7 ist ein großes Sprachmodell (LLM) des Unternehmens MiniMax mit Sitz in Shanghai. MiniMax wurde 2021 von einem Forscherteam unter der Leitung von Yan Junjie (ehemals bei SenseTime) gegründet und etablierte sich schnell als eines der führenden KI-Labore Chinas. Das Unternehmen Sponsoring von Alibaba, Tencent und HongShan angezogen – demselben Kreis strategischer Investoren, der auch hinter anderen „chinesischen KI-Tigern“ steht, darunter Moonshot AI, der Entwickler von Kimi K2.6.
Abgesehen von reinen Sprachmodellen ist MiniMax für Konsumgüter bekannt: die Chat-Assistenten Talkie und Hailuo sowie einer der bemerkenswertesten Videogeneratoren der Branche. Für das Gonka-Netzwerk ist jedoch die M-Serienlinie von Textmodellen, die Nachfolger der früheren abab-Modelle, von Bedeutung.
Das wichtigste architektonische Merkmal der M-Serie ist ihr Fokus auf einen effizienten Aufmerksamkeitsmechanismus. Während frühe große Modelle klassische quadratische Aufmerksamkeit (Rechenkosten wachsen proportional zum Quadrat der Kontextlänge) verwendeten, war MiniMax eines der ersten Unternehmen, das eine hybride lineare Aufmerksamkeit öffentlich zugänglich machte. Dies ermöglicht die Verarbeitung sehr langer Sequenzen ohne eine explosionsartige Zunahme der Rechenkosten – ein historisches Markenzeichen der Linie. Wie Qwen3-235B und Kimi K2.6 basiert das Modell auf der MoE-Architektur (Mixture of Experts): Hunderte Milliarden Parameter „auf dem Papier“, aber bei jeder Anfrage wird nur ein kleiner Teil davon aktiviert, was die Kosten für Inferenz radikal senkt.
Im Gonka-Netzwerk wird das Modell als MiniMaxAI/MiniMax-M2.7 identifiziert – genau dieser String muss im Feld model der API-Anfrage übergeben werden. Version M2.7 ist die neueste Iteration der M-Serie zum Zeitpunkt der Veröffentlichung dieses Artikels.
Eigenschaften von MiniMax M2.7 im Gonka-Netzwerk
Es ist wichtig, die Eigenschaften des Modells „out-of-the-box“ und die Eigenschaften, mit denen es in einem bestimmten Netzwerk bereitgestellt wird, zu unterscheiden. Wenn das Modell in einem dezentralen Gonka-Netzwerk läuft, werden seine Betriebsparameter durch die vLLM-Inferenzkonfiguration auf den GPU-Hosts und nicht nur durch die Architektur des Modells bestimmt. Hier sind die tatsächlichen Werte, die unser Gateway zurückgibt:
- Kontextfenster: 131.072 Token (ca. 100.000 Wörter). Dies ist die Subnetzkonfiguration im Gonka-Netzwerk. Die MiniMax-Architektur selbst unterstützt wesentlich längere Kontexte, aber die praktische Obergrenze wird jederzeit durch die Inferenz-Einstellungen auf den Hosts bestimmt.
- Maximale Ausgabe: 4.096 Token pro Antwort. Diese Zahl wurde empirisch gemessen – durch eine Anfrage mit erzwungener langer Generierung, die an die Obergrenze stieß (finish_reason: length). Zum Vergleich: bei Qwen3-235B sind es 8.192, bei Kimi K2.6 3.072 Token. Dies ist kein Limit des Modells selbst, sondern eine Konfiguration des vLLM-Subnetzes.
- Anforderung an den VRAM des Hosts: ca. 320 GB VRAM pro Node. Dies ist eine typische Anforderung für ein großes MoE-Modell in der FP8-Quantisierung – dieselben 320 GB werden für Qwen3-235B und Kimi K2.6 benötigt. In der Praxis bedeutet dies mehrere GPUs der Klasse H100/H200, die zu einem Node zusammengefasst sind.
Der Preis der Inferenz im Gonka-Netzwerk hängt nicht von der Modellwahl ab und wird durch die Netzwerkparameter bestimmt: Über das JoinGonka Gateway ist MiniMax M2.7 zum gleichen Satz wie Qwen und Kimi erhältlich. Der einheitliche Preis ist eine Folge der Tatsache, dass dem Netzwerk eine einheitliche Kostenberechnung für Rechenarbeit zugrunde liegt und nicht der Preis eines bestimmten Anbieters.
MiniMax M2.7, Qwen3-235B und Kimi K2.6 – Vergleich der drei Gonka-Modelle
Zum ersten Mal hat der Nutzer des Gonka-Netzwerks die Wahl zwischen drei Flaggschiff-Modellen, und alle drei sind über die einheitliche OpenAI-kompatible Schnittstelle JoinGonka Gateway zugänglich. Der folgende Vergleich hilft zu verstehen, nicht „welches besser ist“, sondern für welches Aufgabenprofil jedes optimiert ist.
| Merkmal | MiniMax M2.7 | Qwen3-235B | Kimi K2.6 |
|---|---|---|---|
| Hersteller | MiniMax (Shanghai) | Alibaba Cloud (Hangzhou) | Moonshot AI (Peking) |
| Architektur | MoE + linearer attention | MoE (235B/22B aktiv) | MoE |
| Kontext in Gonka | 131.072 Token | 131.072 Token | 131.072 Token |
| Max. Ausgabe | 4.096 Token | 8.192 Token | 3.072 Token |
| Historische Stärke | Langer Kontext, effizienter attention | Mehrsprachigkeit (119 Sprachen), tool calling | Reasoning, langer Kontext |
| API-Identifikator | MiniMaxAI/MiniMax-M2.7 | Qwen/Qwen3-235B-A22B-Instruct-2507-FP8 | moonshotai/Kimi-K2.6 |
| Status im Netzwerk | Gestartet durch Upgrade v0.2.13 (Mai 2026) | Stabil seit August 2025 | Gestartet durch DevShards (Mai 2026) |
Eine wichtige Anmerkung zu Benchmarks im Jahr 2026: Der Unterschied zwischen Top-Open-Weights-Modellen in öffentlichen Tests hat sich auf wenige Prozentpunkte reduziert, und dieser Unterschied liegt oft innerhalb der statistischen Fehlergrenze der Benchmarks selbst. Für die praktische Arbeit ist nicht der absolute Platz im MMLU-Ranking entscheidend, sondern die Art der Aufgabe: Kontextlänge, Komplexität der logischen Ketten, benötigte Sprache, Vorhandensein von Tool Calling.
Praktische Orientierung: Für Aufgaben mit sehr langen Dokumenten und der Verarbeitung großer Textmengen im Stream ist es sinnvoll, MiniMax M2.7 zu testen – der effiziente Attention seiner Serie ist historisch gesehen auf solche Szenarien ausgerichtet. Für universelle mehrsprachige Arbeit und stabiles Tool Calling in der Produktion ist Qwen3-235B eine bewährte Option. Für Reasoning-Aufgaben mit komplexer Logik ist Kimi K2.6 geeignet. Die beste Strategie in der Produktion besteht darin, alle drei Modelle im Code zu halten und mit einem einzigen model-Parameter ohne Änderung der Anwendungsarchitektur zwischen ihnen zu wechseln.
Wie Gonka das dritte Modell startete: Upgrade v0.2.13
Das Hinzufügen von MiniMax M2.7 ist kein „Hochladen einer Datei auf einen Server“, sondern das Ergebnis eines Netzwerk-Upgrades, das durch eine On-Chain-Abstimmung erfolgte. Die Unterstützung des Modells wurde in das Protokoll-Release v0.2.13 aufgenommen, das durch den Vorschlag #54 genehmigt wurde: Es wurde am 21. Mai 2026 (mit etwa 63 % Ja-Stimmen) angenommen und auf einer festgelegten Blockhöhe aktiviert. Dies ist derselbe Governance-Mechanismus, über den das Netzwerk alle wichtigen Änderungen annimmt – von Tarifen bis zu neuen Modellen.
Multimodalität ist für ein dezentrales Netzwerk ein grundlegender Schritt. Ein Netzwerk, das an ein Modell gebunden ist, ist grundlegend fragil: Die Veröffentlichung einer neuen Modellversion wird zu einer Migrationskrise, und jeder Ausfall des einzigen Modells lässt den gesamten Dienst zusammenbrechen. Ein Netzwerk, das mehrere Modelle gleichzeitig halten kann, entwickelt sich sanft: Neue Modelle werden als zusätzliche „Bahnen“ hinzugefügt, alte funktionieren weiter, und GPU-Hosts erhalten eine Wahl, was sie bedienen möchten. Technisch gesehen lebt jedes Modell in einem eigenen Shard des Netzwerks – derselbe Mechanismus (DevShards) wurde zuvor für den Start von Kimi K2.6 verwendet.
Ein besonderer Aspekt der frühen Phasen: Zwischen „Modell im Netzwerk aufgetaucht“ und „Modell für alle Clients geöffnet“ kann es eine Verzögerung geben. Zuerst war die Inferenz von MiniMax M2.7 im Broker-Modus nur für privilegierte Schlüssel verfügbar und gab einen Fehler für normale Anfragen zurück – eine normale Testphase. Ende Mai 2026 wurde der öffentliche Zugang geöffnet, und das Modell wurde allen Gateway-Clients zugänglich. Mehr darüber, wie das Netzwerk funktioniert und warum Modelle so gestartet werden, erfahren Sie im Artikel über die Architektur des Gonka-Netzwerks.
Dasselbe MiniMax M2.7 über OpenRouter – $0.279/$1.20 pro 1M, gegenüber $0.001 bei JoinGonka.
So verwenden Sie MiniMax M2.7 über das JoinGonka Gateway
Der direkteste Weg führt über das JoinGonka API Gateway. Da das Gateway eine OpenAI-kompatible API bereitstellt, funktioniert derselbe Code, der mit GPT, Claude, Qwen oder Kimi arbeitet, auch mit MiniMax, sobald der Wert des Felds model geändert wird.
Minimales Beispiel über curl:
curl https://gate.joingonka.ai/v1/chat/completions \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "MiniMaxAI/MiniMax-M2.7",
"messages": [
{"role": "user", "content": "Erkläre kurz, was lineare Aufmerksamkeit ist"}
]
}'Dieselbe Anfrage in Python über die openai-Bibliothek:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://gate.joingonka.ai/v1",
)
response = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.7",
messages=[{"role": "user", "content": "Hallo, MiniMax"}],
)
print(response.choices[0].message.content)Streaming (Server-Sent Events) – für interaktive Oberflächen, bei denen die Antwort während der Generierung angezeigt wird:
stream = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.7",
messages=[{"role": "user", "content": "Schreibe ein kurzes Essay über langen Kontext"}],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)Bei der Registrierung im JoinGonka Gateway erhalten Sie kostenlose 10 Millionen Token, um beliebige Netzwerkmodelle zu testen – dies reicht aus, um alle drei Modelle bei Ihren eigenen Aufgaben zu vergleichen.
Kompatibilität mit Entwicklungstools: Alles, was mit der OpenAI API funktioniert, funktioniert auch mit MiniMax über das Gateway. Es reicht aus, den Parameter model zu ändern:
- Cursor: Geben Sie in den Einstellungen für Custom Model
MiniMaxAI/MiniMax-M2.7an - Claude Code, Cline, Continue.dev: Modellname in der Konfiguration
- LangChain, n8n: Parameter
modelbei der Initialisierung des Clients
Die aktuelle Liste der Modelle ist immer unter dem Endpunkt GET /v1/models verfügbar – von dort aus kann sie dynamisch abgerufen werden, damit die Benutzeroberfläche Ihrer Anwendung den aktuellen Satz anzeigt. Wenn die Antwort 429 too many concurrent requests lautet – eine normale Phase für ein neues Modell in der frühen Wachstumsphase des Netzwerks: wiederholen Sie die Anforderung nach einigen Sekunden.
Wann MiniMax M2.7 wählen – praktische Szenarien
Das Vorhandensein von drei Modellen in einem Netzwerk ist wertvoll, da für verschiedene Aufgaben unterschiedliche Tools ausgewählt werden können, ohne den Anbieter oder den Integrationscode ändern zu müssen. Hier sind Szenarien, in denen es sinnvoll ist, mit dem Testen von MiniMax M2.7 zu beginnen.
Analyse langer Dokumente. Wenn die Aufgabe darin besteht, Verträge zusammenzufassen, technische Dokumentationen zu analysieren oder große juristische oder finanzielle Texte zu verarbeiten, ist der effiziente Aufmerksamkeitsmechanismus der M-Serie historisch darauf ausgelegt, lange Kontexte ohne drastischen Kostenanstieg beizubehalten. Übergeben Sie das Dokument vollständig in einer einzigen Anfrage und bitten Sie das Modell, den gesamten Umfang auf einmal und nicht in Teilen zu verarbeiten.
RAG und Arbeit mit Wissensdatenbanken. In Retrieval-Augmented-Szenarien, bei denen Dutzende von Fragmenten aus einer Vektordatenbank in den Kontext gemischt werden, wirkt sich die Fähigkeit des Modells, viele verschiedene Textfragmente zu speichern, direkt auf die Qualität der Antwort aus. Dies ist eine natürliche Nische für Modelle mit langem Kontext.
Verarbeitung von Transkripten und Protokollen. Transkripte von Anrufen, lange Support-Dialoge, Streaming-Protokolle – Aufgaben, bei denen die Eingabemenge groß, die Antwort aber normalerweise kurz ist. Hier stört die Ausgabeobergrenze von 4.096 Token nicht: Vieles geht rein, und es kommen eine Zusammenfassung oder extrahierte Fakten heraus.
Wann ein anderes Modell gewählt werden sollte. Wenn Ihre Anwendung eine sehr lange Antwort in einer einzigen Anfrage benötigt (ein großes generiertes Dokument, ein umfangreicher Codeabschnitt), denken Sie an die Ausgabeobergrenze von 4.096 Token – Qwen3-235B hat doppelt so viel (8.192). Wenn stabiles natives Tool Calling in der Produktion eine Schlüsselrolle spielt – Qwen3-235B ist noch länger bewährt. Für Aufgaben mit komplexen, mehrstufigen Überlegungen lohnt es sich, die Antworten mit Kimi K2.6 zu vergleichen. Universalratschlag: Führen Sie denselben Satz Ihrer realen Anfragen durch alle drei Modelle und vergleichen Sie die Ergebnisse – die kostenlosen 10 Millionen Token bei der Registrierung reichen für einen vollständigen Vergleichstest aus.
Technisch gesehen ist der Wechsel zwischen Modellen ein Ändern einer Zeile im Feld model. Eine intelligente Anwendungsarchitektur im Gonka-Netzwerk „wählt das Modell nicht für immer“, sondern ermöglicht das Weiterleiten von Anfragen zwischen Qwen, Kimi und MiniMax je nach Aufgabentyp – günstiger Inference macht eine solche Weiterleitung wirtschaftlich rentabel.
Möchten Sie mehr erfahren?
Erkunden Sie andere Abschnitte oder beginnen Sie jetzt GNK zu verdienen.
MiniMax M2.7 über Gateway testen →