Abschnitte der Wissensbasis ▾
Für Anfänger
Für Investoren
- Woher kommt der Wert des GNK-Tokens
- Gonka vs. Konkurrenten: Render, Akash, io.net
- Die Libermans: von der Biophysik zur dezentralen KI
- GNK Tokenomics
- Risiken und Perspektiven von Gonka: Objektive Analyse
- Gonka vs Render Network: detaillierter Vergleich
- Gonka vs Akash: KI-Inferenz vs Container
- Gonka vs io.net: Inferenz vs GPU-Marktplatz
- Gonka vs Bittensor: Ein detaillierter Vergleich zweier AI-Ansätze
- Gonka vs Flux: Zwei Ansätze zum nützlichen Mining
- Governance in Gonka: Wie ein dezentrales Netzwerk verwaltet wird
Technisch
Analysen
- Goka — Linux für die KI-Ära
- Killer Switch: Warum ist die Dezentralisierung der KI notwendig?
- Treibstoff, kein Gold – vom digitalen Gold zum KI-Treibstoff
- Proof of Useful Work: Der vollständige Leitfaden zum nützlichen Mining
- 112 Mrd. US-Dollar Loch – die versteckte Pleite von Big Tech
- DePIN-Projekte 2026: Umfassender Überblick und Vergleich
Werkzeuge
- Cursor + Gonka AI – günstige LLM zum Codieren
- Claude Code + Gonka AI – LLM für das Terminal
- OpenClaw + Gonka AI – erschwingliche KI-Agenten
- OpenCode + Gonka AI – kostenlose KI für Code
- Continue.dev + Gonka AI – AI für VS Code/JetBrains
- Cline + Gonka AI – KI-Agent in VS Code
- Aider + Gonka AI – Paarprogrammierung mit KI
- LangChain + Gonka AI – KI-Anwendungen für wenige Cent
- n8n + Gonka AI – Automatisierung mit günstiger KI
- Open WebUI + Gonka AI – Ihr eigenes ChatGPT
- LibreChat + Gonka AI — Open-Source ChatGPT
- API Schnellstart — curl, Python, TypeScript
- JoinGonka Gateway — vollständige Übersicht
- Management Keys – SaaS auf Gonka
- Die günstigste AI API: Anbietervergleich 2026
- Cursor Pro Request Limit erreicht – echte Aufschlüsselung und günstige Alternative
- Claude Code günstigere Alternative – Aufschlüsselung der Rechnung und Wechsel
- Cline hat Dollars verbrannt – warum der Agent Geld verbrennt
- OpenClaw zu teuer – warum Agent Token verbrennt und wie man spart
- OpenRouter günstigere Alternative – Vergleich vs JoinGonka Gateway
Technologie
Kimi K2.6: Das zweite Modell des Gonka-Netzwerks
Was ist Kimi K2.6 von Moonshot AI
Kimi K2.6 ist ein großes Sprachmodell (LLM) der Kimi-Serie, entwickelt vom Pekinger Unternehmen Moonshot AI. Moonshot AI ist eines der führenden KI-Labore Chinas, gegründet 2023 von einem Team von Forschern unter der Leitung von Yang Zhilin. Das Unternehmen hat Finanzmittel von Alibaba, Tencent und anderen großen Investoren erhalten und wurde in die Liste der „chinesischen KI-Tiger“ aufgenommen – Unternehmen, die das Tempo der KI-Entwicklung in Asien vorgeben.
Die Kimi-Serie ist seit 2024 bekannt. Frühe Versionen (K1, K1.5) erregten sofort Aufmerksamkeit durch ihr außergewöhnlich langes Kontextfenster – bis zu 200.000 Token in einer einzigen Anfrage, was zum Zeitpunkt der Veröffentlichung ein Rekord für öffentlich zugängliche Modelle war. Ein langer Kontext bedeutet die praktische Möglichkeit, mit einer einzigen Anfrage ein ganzes Buch, eine mittelgroße Codebasis oder eine Sammlung von Rechtsdokumenten zu analysieren. Zum Zeitpunkt der Veröffentlichung von Kimi war dieses Merkmal ein starkes Wettbewerbsvorteil.
Die Version K2 erschien 2025 und brachte einen grundlegenden architektonischen Sprung – den Übergang zu MoE (Mixture of Experts). Dieselbe Architektur liegt Qwen3-235B und DeepSeek-R1 zugrunde – sie ist zum De-facto-Standard für die größten Modelle der Jahre 2025–2026 geworden. MoE ermöglicht Hunderte Milliarden Parameter „insgesamt“, aber bei jeder Anfrage wird nur eine Untergruppe (normalerweise 5–10 %) aktiviert, was die Rechenkosten für Inferenzen bei vergleichbarer Qualität radikal senkt.
K2.6 ist die neueste Iteration der K2-Serie zum Zeitpunkt der Verfassung dieses Artikels. Aus öffentlichen Erklärungen von Moonshot AI geht hervor, dass in dieser Version die Fähigkeiten des Modells in Bezug auf Reasoning (logisches Denken), Code-Generierung und nativen Tool-Calling verbessert wurden. Im Gonka-Netzwerk wird das Modell als moonshotai/Kimi-K2.6 identifiziert – genau dieser Name muss im Feld model der API-Anfrage übergeben werden.
Vergleich von Kimi K2.6 und Qwen3-235B
Beide Modelle repräsentieren Flaggschiff-Entwicklungen der größten chinesischen KI-Labore und sind über eine einheitliche OpenAI-kompatible Schnittstelle, das JoinGonka Gateway, zugänglich. Sie haben jedoch unterschiedliche Stärken und ein unterschiedliches Erbe, was die Wahl zwischen ihnen nicht zu einer Frage macht, „welches besser ist“, sondern „welches für die Aufgabe geeignet ist“.
| Merkmal | Kimi K2.6 | Qwen3-235B-A22B |
|---|---|---|
| Hersteller | Moonshot AI (Peking) | Alibaba Cloud (Hangzhou) |
| Gründungsjahr des Unternehmens | 2023 | 2009 (Alibaba Cloud) |
| Architektur | MoE | MoE (235B gesamt, 22B aktiv) |
| Kontextfenster | Langer Kontext (Markenzeichen der Kimi-Serie) | 131.072 Token (~100.000 Wörter) |
| Stärke | Reasoning, langer Kontext, Code-Generierung | Universell, Mehrsprachigkeit (119 Sprachen), stabiles Tool-Calling |
| Preis über JoinGonka | $0.001 pro 1M Tokens | $0.001 pro 1M Tokens |
| API-Identifier | moonshotai/Kimi-K2.6 | Qwen/Qwen3-235B-A22B-Instruct-2507-FP8 |
| Tool-Calling | In der Feineinstellung (auto-choice) | Nativ, stabil (PR #767) |
| Status im Gonka-Netzwerk | Gestartet über DevShards (Mai 2026) | Stabil seit August 2025 |
In Reasoning-Benchmarks (MATH-500, GSM8K, AIME) zeigt die Kimi K2-Serie historisch Ergebnisse in der oberen Gruppe der Open-Weights-Modelle, konkurrierend mit DeepSeek-R1 und o1-style Modellen. Bei Code-Generierungsaufgaben (HumanEval, MBPP) liegen beide Modelle auf ähnlichem Niveau. Bei Mehrsprachigkeit und Übersetzung hat Qwen3-235B einen Vorteil, da es auf 119 Sprachen trainiert wurde, während Kimi stärker für Chinesisch und Englisch optimiert ist.
Ein wichtiger Hinweis zu Benchmarks im Jahr 2026: Der Unterschied zwischen den Top-Modellen in öffentlichen Tests hat sich auf wenige Prozentpunkte reduziert, und dieser Unterschied liegt oft innerhalb des statistischen Fehlers der Benchmarks selbst. Für die praktische Arbeit ist nicht entscheidend, „wer bei MMLU 2 % höher liegt“, sondern die Art der Aufgaben: welcher Kontext an das Modell übergeben wird, wie komplex die logischen Ketten sind, ob eine lange Dialoghistorie benötigt wird und welche Sprachen verwendet werden. Daher werden die Modelle in der obigen Tabelle nicht rangiert – sie soll helfen, schnell zu verstehen, für welches Aufgabenprofil jedes Modell optimiert ist.
Zur praktischen Auswahl: Wenn die Aufgabe einen langen Kontext (Analyse großer Dokumente, Lesen umfangreicher Codebasen, lange Dialoge mit Historie) oder komplexe Reasoning-Aufgaben erfordert – beginnen Sie mit Kimi K2.6. Für universelle Aufgaben, Übersetzungen, mehrsprachige Arbeit und stabiles Tool-Calling in der Produktion – Qwen3-235B scheint die bewährtere Option zu sein, da es länger im Gonka-Netzwerk läuft. Eine gute Strategie in der Produktion ist es, beide Modelle in Ihrem Code zu haben: Ein schneller Wechsel über den model-Parameter ermöglicht es, je nach Aufgabe zwischen ihnen zu wechseln, ohne die Anwendungsarchitektur zu ändern.
DevShards: Wie Gonka das zweite Modell startete
Bis Frühjahr 2026 bediente das gesamte Gonka-Netzwerk genau ein Modell – Qwen3-235B. Aus architektonischer Sicht war dies eine sinnvolle Entscheidung: Verteilte Inferenz über DiLoCo erfordert, dass alle Netzwerkteilnehmer dasselbe Modell im Videospeicher halten, da sonst nicht garantiert werden kann, dass jeder Knoten jede Anfrage bearbeiten kann. Die vollständige Qwen3-235B im FP8-Format belegt etwa 640 GB VRAM, was an sich schon eine enorme Verpflichtung für jeden ML-Node darstellt.
Für den Übergang zu einem Multi-Modell-Netzwerk war ein Mechanismus erforderlich, der es ermöglichte, mehrere Modelle gleichzeitig zu halten, aber nicht von jedem Host verlangte, alle zu starten. Dieser Mechanismus wurde zu DevShards – separate Shards des Netzwerks, von denen jeder auf ein Modell spezialisiert ist. Die Knoten innerhalb eines Shards arbeiten an demselben Modell, und der Netzwerk-Router leitet die Anfrage an den Shard mit dem benötigten Modell.
Die Idee kam nicht aus dem Nichts – sie wurde im Gonka Improvement Proposal #800 „Multi-Model PoC“ formalisiert, das im Frühjahr 2026 der Community zur Abstimmung vorgelegt wurde. Der Vorschlag erhielt die Unterstützung der Teilnehmer und Validatoren des Netzwerks und wurde im April–Mai 2026 umgesetzt. Kimi K2.6 war das erste Modell, das auf einem separaten DevShard gestartet wurde – also praktisch eine Testimplementierung des neuen Ansatzes. Wenn die Erfahrung erfolgreich ist, steht der Einführung eines dritten, vierten und so weiter nichts im Wege – jedes auf einem eigenen Shard, mit eigener Host-Sammlung, eigener Wirtschaftlichkeit und eigener Roadmap.
Was bedeutet das für Benutzer und Entwickler:
- Eine API – mehrere Modelle. Über das JoinGonka Gateway müssen Sie weder den Endpunkt noch die Schlüssel ändern: Es reicht aus, im Anfragetext einen anderen
modelanzugeben. Das OpenAI-kompatible Format bleibt vollständig erhalten. - Der Preis bleibt gleich. Derzeit wird Kimi K2.6 im Netzwerk zum gleichen Preis wie Qwen3-235B berechnet – 0,001 $ pro 1M Tokens über das Gateway. Zukünftig können die Preise je nach Modell variieren, aber einheitliche Preise zu Beginn sind eine bewusste Entscheidung, um die Migration für Benutzer zu vereinfachen.
- Stabilität hängt von der Shard-Auslastung ab. In der Anfangsphase hat der Kimi-Shard weniger Hosts als der Haupt-Qwen-Shard. Daher kann das Modell bei konzentrierten Anfragen vorübergehend
429 too many concurrent requestszurückgeben. Dies ist eine normale Phase für ein neues Modell – mit zunehmendem Interesse werden Hosts dem Kimi-Shard beitreten, und die Limits werden erhöht. - Tool-Calling – in Bearbeitung. Zum Zeitpunkt der Erstellung dieses Artikels weist Kimi K2.6 im Gonka-Netzwerk kleinere Probleme mit der automatischen Auswahl von Tools (
tool_choice: "auto") auf. Das Gonka-Team arbeitet daran, das Verhalten an den OpenAI-Standard anzupassen; für kritische Produktionsszenarien mit Tool-Calling wird derzeit empfohlen, Qwen3-235B zu verwenden.
Wie man Kimi K2.6 über Gonka ausprobiert
Der direkteste Weg führt über das JoinGonka API Gateway. Das Gateway bietet eine OpenAI-kompatible API, was bedeutet: Derselbe Code, der mit GPT, Claude oder Qwen funktioniert, funktioniert nach einer Änderung des Wertes des Feldes model im Anfragetext auch mit Kimi.
Minimalbeispiel über curl:
curl https://gate.joingonka.ai/v1/chat/completions \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "moonshotai/Kimi-K2.6",
"messages": [
{"role": "user", "content": "Erkläre den Unterschied zwischen MoE- und dichten Modellen"}
]
}'Die gleiche Anfrage mit Python über die Bibliothek openai:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://gate.joingonka.ai/v1",
)
response = client.chat.completions.create(
model="moonshotai/Kimi-K2.6",
messages=[{"role": "user", "content": "Hallo, Kimi"}],
)
print(response.choices[0].message.content)Streaming (Server-Sent Events) – für interaktive Oberflächen und Chats, bei denen die Antwort während der Generierung angezeigt werden soll:
stream = client.chat.completions.create(
model="moonshotai/Kimi-K2.6",
messages=[{"role": "user", "content": "Schreibe einen Aufsatz über MoE"}],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)Die Kosten für Kimi K2.6 betragen ebenfalls 0,001 $ pro 1 Million Token, genau wie bei Qwen3-235B. Das ist etwa 2.500-mal günstiger als GPT-5.4 und etwa 3.000-mal günstiger als Claude Sonnet 4.5. Bei der Registrierung im JoinGonka Gateway erhalten Sie kostenlose 10 Millionen Token zum Testen beliebiger Modelle des Netzwerks – das reicht für mehrere Stunden intensiver Arbeit oder Zehntausende regulärer Anfragen.
Kompatibilität mit Entwicklungstools: Alles, was mit der OpenAI API funktioniert, funktioniert auch mit Kimi über das Gateway. Auf Modell-Ebene reicht es aus, den Parameter model zu ändern:
- Cursor: Legen Sie in den benutzerdefinierten Modelleinstellungen
moonshotai/Kimi-K2.6fest. - Claude Code: Umgebungsvariable
ANTHROPIC_MODELoder Flag--model. - OpenClaw, Cline, Continue.dev: Ändern Sie den Modellnamen in der CustomChatModel-Konfiguration.
- LangChain, n8n: Parameter
modelin der Client-Initialisierung. - Open WebUI, LibreChat: Das Modell erscheint in der Dropdown-Liste, nachdem Gonka als benutzerdefinierter Anbieter hinzugefügt wurde.
Die Liste der verfügbaren Modelle ist im Endpunkt GET /v1/models Ihrer Gateway-Instanz immer aktuell – von dort lässt sie sich bequem dynamisch in die Benutzeroberfläche Ihrer Anwendung laden, sodass Benutzer die vollständige Liste sehen und das Modell selbst auswählen können.
Der Demo-Chat auf der Seite /try funktioniert zum Zeitpunkt der Veröffentlichung nur mit Qwen3-235B – der Multi-Modell-Selektor im Widget ist in der Roadmap. Um Kimi sofort auszuprobieren, nutzen Sie die Gateway API: Die kostenlosen 10M Tokens reichen für mehrere Stunden Experimente. Wenn die Antwort 429 too many concurrent requests lautet – dies ist eine normale Phase für ein neues Modell in den frühen Wachstumsstadien des Gonka-Netzwerks. Wiederholen Sie einfach die Anfrage nach ein paar Sekunden oder warten Sie auf eine Phase geringerer Auslastung.
Wie es für das Gonka-Netzwerk weitergeht: Der Erfolg von DevShards für Kimi ebnet den Weg für andere Modelle. In Community-Diskussionen werden DeepSeek-V3/R1, Llama 4 und spezialisierte Modelle für Code genannt. Jedes neue Modell bedeutet einen neuen Shard, neue Hosts, neue Möglichkeiten für Benutzer und eine neue Einnahmequelle für GPU-Anbieter. Eine Mehrmodell-Architektur ist auch strategisch wichtig: Ein Netzwerk, das an ein Modell gebunden ist, ist grundlegend fragil (die Veröffentlichung einer neuen Version bedeutet eine Migrationskrise), während ein Netzwerk, das mehrere Modelle gleichzeitig halten kann, sich sanft und kontinuierlich entwickelt.
Möchten Sie mehr erfahren?
Erkunden Sie andere Abschnitte oder beginnen Sie jetzt GNK zu verdienen.
Kimi K2.6 über Gateway ausprobieren →