Kimi K2.6: Das zweite Modell des Gonka-Netzwerks

Lange Zeit wurde das Gonka-Netzwerk von einem einzigen Modell angetrieben — Qwen3-235B von Alibaba Cloud. Im Mai 2026 änderte sich dies: Die Unterstützung für mehrere Modelle über den DevShards-Mechanismus wurde eingeführt, wobei Kimi K2.6 der chinesischen Firma Moonshot AI als erstes Modell startete. Später kam MiniMax M2.7 hinzu, während Qwen3-235B mit der Zeit aus dem Netzwerk entfernt wurde — heute betreibt Gonka zwei Modelle: Kimi K2.6 und MiniMax M2.7. Wir analysieren, was dieses Modell ausmacht, wie es sich von MiniMax M2.7 unterscheidet, wie Gonka die Multi-Modell-Fähigkeit technisch umgesetzt hat und wie Sie es über unser API Gateway testen können.

Was ist Kimi K2.6 von Moonshot AI

Kimi K2.6 ist ein großes Sprachmodell (LLM) der Kimi-Serie, entwickelt vom Pekinger Unternehmen Moonshot AI. Moonshot AI ist eines der führenden KI-Labore Chinas, gegründet 2023 von einem Team von Forschern unter der Leitung von Yang Zhilin. Das Unternehmen hat Finanzmittel von Alibaba, Tencent und anderen großen Investoren erhalten und wurde in die Liste der „chinesischen KI-Tiger“ aufgenommen – Unternehmen, die das Tempo der KI-Entwicklung in Asien vorgeben.

Die Kimi-Serie ist seit 2024 bekannt. Frühe Versionen (K1, K1.5) erregten sofort Aufmerksamkeit durch ihr außergewöhnlich langes Kontextfenster – bis zu 200.000 Token in einer einzigen Anfrage, was zum Zeitpunkt der Veröffentlichung ein Rekord für öffentlich zugängliche Modelle war. Ein langer Kontext bedeutet die praktische Möglichkeit, mit einer einzigen Anfrage ein ganzes Buch, eine mittelgroße Codebasis oder eine Sammlung von Rechtsdokumenten zu analysieren. Zum Zeitpunkt der Veröffentlichung von Kimi war dieses Merkmal ein starkes Wettbewerbsvorteil.

Die Version K2 erschien 2025 und brachte einen grundlegenden architektonischen Sprung – den Übergang zu MoE (Mixture of Experts). Dieselbe Architektur liegt Qwen3-235B und DeepSeek-R1 zugrunde – sie ist zum De-facto-Standard für die größten Modelle der Jahre 2025–2026 geworden. MoE ermöglicht Hunderte Milliarden Parameter „insgesamt“, aber bei jeder Anfrage wird nur eine Untergruppe (normalerweise 5–10 %) aktiviert, was die Rechenkosten für Inferenzen bei vergleichbarer Qualität radikal senkt.

K2.6 ist die neueste Iteration der K2-Serie zum Zeitpunkt der Verfassung dieses Artikels. Aus öffentlichen Erklärungen von Moonshot AI geht hervor, dass in dieser Version die Fähigkeiten des Modells in Bezug auf Reasoning (logisches Denken), Code-Generierung und nativen Tool-Calling verbessert wurden. Im Gonka-Netzwerk wird das Modell als moonshotai/Kimi-K2.6 identifiziert – genau dieser Name muss im Feld model der API-Anfrage übergeben werden.

Vergleich zwischen Kimi K2.6 und MiniMax M2.7

Beide Modelle repräsentieren Flaggschiff-Entwicklungen führender chinesischer KI-Labore und sind über die einheitliche OpenAI-kompatible Schnittstelle JoinGonka Gateway zugänglich. Sie haben jedoch unterschiedliche Stärken und Hintergründe, sodass die Wahl zwischen ihnen keine Frage danach ist, „welches besser ist“, sondern „welches für die Aufgabe geeignet ist“.

Eigenschaft	Kimi K2.6	MiniMax M2.7
Hersteller	Moonshot AI (Peking)	MiniMax (Shanghai)
Gründungsjahr	2023	2021
Architektur	MoE	MoE + lineare Attention
Kontextfenster	200.000 Token	200.000 Token
Stärke	Reasoning, langer Kontext, code generation	Langer Kontext, effiziente (lineare) Attention
Preis via JoinGonka	$0.003 pro 1M Token	$0.003 pro 1M Token
API-Identifikator	`moonshotai/Kimi-K2.6`	`MiniMaxAI/MiniMax-M2.7`
Status im Gonka-Netzwerk	Gestartet über DevShards (Mai 2026)	Gestartet über Upgrade v0.2.13 (Mai 2026)

Bei Reasoning-Benchmarks (MATH-500, GSM8K, AIME) zeigt die Kimi K2-Serie historisch gesehen Ergebnisse in der Spitzengruppe der Open-Weights-Modelle und konkurriert mit DeepSeek-R1 und o1-style Modellen. Bei Aufgaben der Code-Generierung (HumanEval, MBPP) bewegen sich beide Modelle auf einem ähnlichen Niveau. Die Stärke von MiniMax M2.7 liegt in der effizienten (linearen) Attention für sehr lange Sequenzen, während Kimi für starkes Reasoning und den langen Kontext der Kimi-Serie bekannt ist.

Ein wichtiger Hinweis zu Benchmarks im Jahr 2026: Die Lücke zwischen Top-Modellen in öffentlichen Tests ist auf wenige Prozent geschrumpft, und dieser Unterschied liegt oft innerhalb der statistischen Fehlermarge der Benchmarks selbst. Für die praktische Arbeit ist nicht entscheidend, „wer bei MMLU 2% besser ist“, sondern die Art der Aufgaben: Welchen Kontext übergeben Sie dem Modell, wie komplex sind die logischen Ketten, wird eine lange Dialoghistorie benötigt, welche Sprachen werden verwendet? Deshalb bewertet die obige Tabelle die Modelle nicht, sondern hilft dabei, schnell zu verstehen, für welches Aufgabenprofil jedes Modell optimiert ist.

Für eine praktische Entscheidung: Wenn die Aufgabe einen langen Kontext (Analyse großer Dokumente, Lesen von umfangreichen Codebasen, lange Dialoge mit Historie) oder komplexe Reasoning-Aufgaben erfordert, sollten Sie mit Kimi K2.6 beginnen. Wenn der Fokus auf der Verarbeitung sehr langer Eingabesequenzen und Streaming-Daten liegt, sollten Sie MiniMax M2.7 mit seiner effizienten Attention testen. Eine gute Strategie für den produktiven Einsatz ist es, beide Modelle im Code verfügbar zu haben: Ein schneller Wechsel über den Parameter model ermöglicht es, je nach Anforderung zwischen ihnen zu schalten, ohne die Anwendungsarchitektur zu ändern.

DevShards: Wie Gonka das zweite Modell startete

Bis zum Frühjahr 2026 bediente das gesamte Gonka-Netzwerk genau ein Modell — Qwen3-235B. Aus architektonischer Sicht war dies eine sinnvolle Entscheidung: distributed inference mittels DiLoCo erfordert, dass alle Netzwerkteilnehmer dasselbe Modell im Videospeicher halten, da es sonst unmöglich ist zu garantieren, dass jeder Knoten jede Anfrage verarbeiten kann. Eine vollständige Qwen3-235B im FP8-Format belegt etwa 640 GB VRAM, was an sich schon eine enorme Verpflichtung für jeden ML-Node darstellt.

Für den Übergang zu einem Multi-Modell-Netzwerk war ein Mechanismus erforderlich, der es ermöglicht, mehrere Modelle gleichzeitig zu halten, ohne dass jeder Host gezwungen ist, alle auszuführen. Dieser Mechanismus sind DevShards — separate Netzwerk-Shards, von denen sich jeder auf ein Modell spezialisiert. Die Knoten innerhalb eines Shards arbeiten an demselben Modell, und der Netzwerk-Router leitet die Anfrage an den Shard mit dem entsprechenden Modell weiter.

Die Idee kam nicht aus dem Nichts — sie wurde im Gonka Improvement Proposal #800 „Multi-Model PoC“ formalisiert, das im Frühjahr 2026 zur Abstimmung durch die Community gestellt wurde. Der Vorschlag erhielt die Unterstützung der Netzwerkteilnehmer und Validatoren und wurde von April bis Mai 2026 umgesetzt. Kimi K2.6 wurde das erste Modell, das auf einem separaten DevShard ausgeführt wurde — also faktisch eine Testimplementierung des neuen Ansatzes. Wenn sich die Erfahrung als erfolgreich erweist, spricht nichts dagegen, ein drittes, ein viertes usw. zu starten — jedes auf seinem eigenen Shard, mit eigener Host-Basis, eigener Ökonomie und eigenem Roadmap.

Was bedeutet das für Nutzer und Entwickler:

Eine API — mehrere Modelle. Über das JoinGonka Gateway müssen weder Endpunkte noch Schlüssel geändert werden: Es reicht aus, im Anfragekörper einen anderen model-Wert anzugeben. Das OpenAI-kompatible Format bleibt vollständig erhalten.
Der Preis bleibt gleich. Derzeit wird Kimi K2.6 im Netzwerk zum gleichen Tarif wie MiniMax M2.7 abgerechnet — $0.003 pro 1M Token über das Gateway. In Zukunft können die Preise je nach Modell variieren, aber eine einheitliche Preisgestaltung zum Start ist eine bewusste Entscheidung, um die Migration für Nutzer zu erleichtern.
Stabilität hängt von der Shard-Last ab. In der frühen Phase hat ein neues Modell-Shard weniger Hosts. Daher kann das Modell bei einer Konzentration von Anfragen vorübergehend 429 too many concurrent requests zurückgeben. Dies ist eine normale Phase für ein neues Modell — mit wachsendem Interesse werden sich weitere Hosts dem Shard anschließen und die Limits werden steigen.
Tool calling — wird noch optimiert. Zum Zeitpunkt des Verfassens dieses Artikels gibt es bei Kimi K2.6 im Gonka-Netzwerk kleinere Probleme mit der automatischen Auswahl von Tools (tool_choice: "auto"). Das Gonka-Team arbeitet daran, das Verhalten an den OpenAI-Standard anzupassen; für geschäftskritische Szenarien mit Tool Calling testen Sie bitte vorab das Modellverhalten mit Ihren Anfragen.

Wie man Kimi K2.6 über Gonka ausprobiert

Der direkteste Weg führt über das JoinGonka API Gateway. Das Gateway bietet eine OpenAI-kompatible API, was bedeutet: Der gleiche Code, der mit GPT, Claude oder anderen Modellen funktioniert, funktioniert auch mit Kimi, sobald der Wert des Feldes model im Request-Body angepasst wird.

Minimales curl-Beispiel:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2.6",
    "messages": [
      {"role": "user", "content": "Erkläre den Unterschied zwischen MoE- und dense-Modellen"}
    ]
  }'

Derselbe Request mit Python über die openai-Bibliothek:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Hallo, Kimi"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) – für interaktive Interfaces und Chats, bei denen die Antwort während der Generierung angezeigt werden soll:

stream = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Schreibe ein Essay über MoE"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Die Kosten für Kimi K2.6 betragen $0.003 pro 1 Million Tokens, der einheitliche Tarif des Netzwerks. Das ist ca. 1.700-mal günstiger als GPT-5.5 und ca. 1.000-mal günstiger als Claude Sonnet 4.6. Bei der Registrierung im JoinGonka Gateway erhalten Sie kostenlose 10 Millionen Tokens zum Testen beliebiger Modelle im Netzwerk – das reicht für mehrere Stunden intensiver Arbeit oder zehntausende normale Anfragen.

Kompatibilität mit Entwicklungstools: Alles, was mit der OpenAI API funktioniert, funktioniert auch mit Kimi über das Gateway. Auf Modellebene müssen Sie nur den Parameter model anpassen:

Cursor: Geben Sie in den Einstellungen unter Custom Model moonshotai/Kimi-K2.6 an
Claude Code: Umgebungsvariable ANTHROPIC_MODEL oder Flag --model
OpenClaw, Cline, Continue.dev: Ändern Sie den Modellnamen in der CustomChatModel-Konfiguration
LangChain, n8n: Parameter model bei der Client-Initialisierung
Open WebUI, LibreChat: Das Modell erscheint in der Dropdown-Liste, sobald Gonka als benutzerdefinierter Anbieter hinzugefügt wurde

Die Liste der verfügbaren Modelle ist immer aktuell unter dem Endpoint GET /v1/models Ihrer Gateway-Instanz abrufbar – von dort können Sie diese dynamisch in die UI Ihrer Anwendung einbinden, damit Benutzer die vollständige Liste sehen und ein Modell selbst auswählen können.

Der Demo-Chat auf der Seite /try nutzt zum Zeitpunkt der Veröffentlichung eines der aktiven Netzwerkmodelle – ein Multimodell-Selektor im Widget steht auf der Roadmap. Um Kimi jetzt auszuprobieren, nutzen Sie das Gateway API: Die kostenlosen 10M Tokens reichen für mehrere Stunden Experimente. Falls 429 too many concurrent requests zurückgegeben wird, ist dies eine normale Phase für ein neues Modell in der frühen Wachstumsphase des Gonka-Netzwerks. Wiederholen Sie den Vorgang einfach nach ein paar Sekunden oder warten Sie auf ein Zeitfenster mit geringerer Auslastung.

Was kommt als Nächstes für das Gonka-Netzwerk: Der Erfolg von DevShards für Kimi ebnet den Weg für andere Modelle. In Community-Diskussionen werden DeepSeek-V3/R1, Llama 4 und spezialisierte Modelle für Code genannt. Jedes neue Modell bedeutet neue Shards, neue Hosts, neue Möglichkeiten für Benutzer und eine neue Einnahmequelle für GPU-Provider. Die Multi-Modell-Architektur ist auch strategisch wichtig: Ein Netzwerk, das an ein einziges Modell gebunden ist, ist fundamental fragil (die Veröffentlichung einer neuen Version führt zum Migrations-Krisenmanagement), während ein Netzwerk, das mehrere Modelle gleichzeitig unterstützen kann, sich sanft und kontinuierlich weiterentwickelt.

Dieselben Kimi K2.6 über OpenRouter kosten $0.684/$3.42 pro 1M, im Vergleich zu $0.003 bei JoinGonka (Hunderte Male teurer).

Kimi K2.6 ist ein MoE-Modell von Moonshot AI mit langem Kontext und starken Reasoning-Fähigkeiten. Im Mai 2026 wurde es nach Qwen3-235B zum zweiten Modell im Gonka-Netzwerk, das über den DevShards-Mechanismus (separater Shard pro Modell) gestartet wurde. Über das JoinGonka Gateway ist es via OpenAI-kompatibler API für $0.003 pro 1M Token verfügbar – der einheitliche Tarif des Netzwerks. Modell-Identifikator in der API: moonshotai/Kimi-K2.6. In der Anfangsphase sind temporäre 429-Fehler bei Anfragekonzentration möglich; Tool Calling befindet sich in der Feinabstimmung.

← Qwen3-235B: Das Modell, das Gonka früher bediente MiniMax M2.7: Gonka Netzwerkmodell →

Möchten Sie mehr erfahren?

Erkunden Sie andere Abschnitte oder beginnen Sie jetzt GNK zu verdienen.

Kimi K2.6 über Gateway ausprobieren →