Разделы базы знаний ▾

Инструменты

Технология

Kimi K2.6: вторая модель сети Gonka

Долгое время сеть Gonka работала на одной модели — Qwen3-235B от Alibaba Cloud. В мае 2026 это изменилось: запущена поддержка нескольких моделей через механизм DevShards, и первой ласточкой стала Kimi K2.6 от китайской компании Moonshot AI. Разберём, что это за модель, чем она отличается от Qwen3-235B, как Gonka технически реализовала мульти-модельность и как попробовать новую модель через наш API Gateway.

Что такое Kimi K2.6 от Moonshot AI

Kimi K2.6 — большая языковая модель (LLM) серии Kimi, разработанная пекинской компанией Moonshot AI. Moonshot AI — одна из ведущих AI-лабораторий Китая, основана в 2023 году командой исследователей под руководством Yang Zhilin. Компания привлекла финансирование от Alibaba, Tencent и других крупных инвесторов и попала в список «китайских AI-тигров» — компаний, которые задают темп развития AI в Азии.

Серия Kimi известна с 2024 года. Ранние версии (K1, K1.5) сразу обратили на себя внимание исключительно длинным контекстным окном — до 200 000 токенов в одном запросе, что в момент релиза было рекордом для публично доступных моделей. Длинный контекст означает практическую возможность за один запрос проанализировать целую книгу, кодовую базу среднего размера или подборку юридических документов. На момент выхода Kimi эта характеристика была сильным конкурентным преимуществом.

Версия K2 появилась в 2025 году и принесла принципиальный архитектурный скачок — переход на MoE (Mixture of Experts). Эта же архитектура лежит в основе Qwen3-235B и DeepSeek-R1 — она стала фактическим стандартом для крупнейших моделей 2025—2026 годов. MoE позволяет иметь сотни миллиардов параметров «всего», но на каждом запросе активировать лишь подмножество (обычно 5—10%), что радикально снижает вычислительную стоимость inference при сопоставимом качестве.

K2.6 — последняя итерация серии K2 на момент написания статьи. Из публичных заявлений Moonshot AI следует, что в этой версии улучшены способности модели в reasoning (логических рассуждениях), генерации кода и нативном вызове инструментов (tool calling). В сети Gonka модель идентифицируется как moonshotai/Kimi-K2.6 — именно это имя нужно передавать в поле model запроса к API.

Сравнение Kimi K2.6 и Qwen3-235B

Обе модели представляют флагманские разработки крупнейших китайских AI-лабораторий и обе доступны через единый OpenAI-совместимый интерфейс JoinGonka Gateway. При этом у них разные сильные стороны и разное наследие, что делает выбор между ними не вопросом «какая лучше», а вопросом «какая подходит под задачу».

ХарактеристикаKimi K2.6Qwen3-235B-A22B
ПроизводительMoonshot AI (Пекин)Alibaba Cloud (Ханчжоу)
Год основания компании20232009 (Alibaba Cloud)
АрхитектураMoEMoE (235B всего, 22B активных)
Контекстное окноДлинный контекст (визитная карточка серии Kimi)131 072 токена (~100 000 слов)
Сильная сторонаReasoning, длинный контекст, code generationУниверсальная, мультиязычность (119 языков), стабильный tool calling
Цена через JoinGonka$0.001 за 1M токенов$0.001 за 1M токенов
Идентификатор APImoonshotai/Kimi-K2.6Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
Tool callingВ стадии доводки (auto-choice)Нативный, стабильный (PR #767)
Статус в сети GonkaЗапущена через DevShards (май 2026)Стабильна с августа 2025

На бенчмарках reasoning (MATH-500, GSM8K, AIME) серия Kimi K2 исторически показывает результаты в верхней группе open-weights моделей, конкурируя с DeepSeek-R1 и o1-style моделями. На задачах генерации кода (HumanEval, MBPP) обе модели держатся на близких уровнях. В мультиязычности и переводе Qwen3-235B имеет преимущество за счёт обучения на 119 языках, тогда как Kimi сильнее оптимизирована под китайский и английский.

Важная оговорка про бенчмарки в 2026 году: разрыв между топ-моделями в публичных тестах сократился до единиц процентов, и эта разница часто оказывается в пределах статистической погрешности самих бенчмарков. Для практической работы значение имеет не «кто на 2% выше в MMLU», а характер задач: какой контекст вы передаёте модели, насколько сложны логические цепочки, нужна ли длинная история диалога, какие языки используются. Поэтому таблица выше не ранжирует модели — она помогает быстро понять, под какой профиль задач каждая из них оптимизирована.

Для практического выбора: если задача требует длинного контекста (анализ больших документов, чтение объёмной кодовой базы, длинные диалоги с сохранением истории) или сложных reasoning-задач — стоит начинать с Kimi K2.6. Для универсальных задач, переводов, мультиязычной работы и стабильного tool calling в продакшене — Qwen3-235B пока выглядит более проверенным вариантом, поскольку дольше работает в сети Gonka. Хорошая стратегия в продакшене — иметь обе модели в своём коде: быстрая смена через параметр model позволяет переключаться между ними в зависимости от задачи без изменения архитектуры приложения.

DevShards: как Gonka запустила вторую модель

До весны 2026 вся сеть Gonka обслуживала ровно одну модель — Qwen3-235B. С точки зрения архитектуры это было осмысленное решение: распределённый inference через DiLoCo требует, чтобы все участники сети держали одну и ту же модель в видеопамяти, иначе невозможно гарантировать, что любой узел сможет обработать любой запрос. Полная Qwen3-235B в формате FP8 занимает около 640 ГБ VRAM, что уже само по себе огромное обязательство для каждой ML-ноды.

Для перехода к мульти-модельной сети нужен был механизм, который позволял бы держать несколько моделей одновременно, но не требовал бы от каждого хоста запускать их все. Этим механизмом стали DevShards — отдельные шарды сети, каждый из которых специализируется на одной модели. Узлы внутри одного шарда работают над одной и той же моделью, а маршрутизатор сети направляет запрос в шард с нужной моделью.

Идея пришла не из воздуха — она была формализована в Gonka Improvement Proposal #800 «Multi-Model PoC», вынесенном на голосование сообщества весной 2026 года. Предложение получило поддержку участников и валидаторов сети и было реализовано в апреле—мае 2026. Kimi K2.6 стала первой моделью, запущенной на отдельном DevShard, — то есть фактически тестовой реализацией нового подхода. Если опыт окажется успешным, ничто не мешает запустить третью, четвёртую и так далее — каждая на своём шарде, с собственным набором хостов, собственной экономикой и собственным roadmap.

Что это значит для пользователей и разработчиков:

  • Один API — несколько моделей. Через JoinGonka Gateway не нужно менять endpoint или ключи: достаточно указать другой model в теле запроса. OpenAI-совместимый формат полностью сохраняется.
  • Цена та же. Сейчас Kimi K2.6 в сети тарифицируется по той же ставке, что и Qwen3-235B — $0.001 за 1M токенов через Gateway. В будущем цены могут различаться по моделям, но единый прайсинг на старте — это сознательное решение для упрощения миграции пользователей.
  • Стабильность зависит от загрузки шарда. На ранней стадии шард Kimi имеет меньше хостов, чем основной шард Qwen, поэтому при концентрации запросов модель может временно возвращать 429 too many concurrent requests. Это нормальная фаза для новой модели — по мере роста интереса хосты будут подключаться к шарду Kimi, и лимиты вырастут.
  • Tool calling — в процессе доводки. На момент написания статьи у Kimi K2.6 в сети Gonka фиксируются мелкие проблемы с автоматическим выбором инструментов (tool_choice: "auto"). Команда Gonka работает над приведением поведения к стандарту OpenAI; для критичных в продакшене сценариев с tool calling рекомендуется пока использовать Qwen3-235B.

Как попробовать Kimi K2.6 через Gonka

Самый прямой путь — через JoinGonka API Gateway. Gateway предоставляет OpenAI-совместимый API, что означает: тот же код, который работает с GPT, Claude или Qwen, начнёт работать с Kimi после смены значения поля model в теле запроса.

Минимальный пример через curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2.6",
    "messages": [
      {"role": "user", "content": "Объясни разницу между MoE и dense моделями"}
    ]
  }'

Тот же запрос с Python через библиотеку openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Привет, Kimi"}],
)
print(response.choices[0].message.content)

Стриминг (Server-Sent Events) — для интерактивных интерфейсов и чатов, где ответ хочется показывать по мере генерации:

stream = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Напиши эссе про MoE"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Стоимость Kimi K2.6 — те же $0.001 за 1 миллион токенов, что и у Qwen3-235B. Это в ~2 500 раз дешевле GPT-5.4 и в ~3 000 раз дешевле Claude Sonnet 4.5. При регистрации в JoinGonka Gateway вы получаете бесплатные 10 миллионов токенов на тестирование любых моделей сети — этого хватит на несколько часов плотной работы или десятки тысяч обычных запросов.

Совместимость с инструментами разработки: всё, что работает с OpenAI API, работает и с Kimi через Gateway. На уровне модели достаточно поменять параметр model:

  • Cursor: в настройках Custom Model укажите moonshotai/Kimi-K2.6
  • Claude Code: переменная окружения ANTHROPIC_MODEL или флаг --model
  • OpenClaw, Cline, Continue.dev: в конфиге CustomChatModel поменяйте имя модели
  • LangChain, n8n: параметр model в инициализации клиента
  • Open WebUI, LibreChat: модель появляется в выпадающем списке после добавления Gonka как кастомного провайдера

Список доступных моделей всегда актуален в endpoint GET /v1/models вашего Gateway-инстанса — оттуда удобно подтягивать его динамически в UI вашего приложения, чтобы пользователи видели полный список и могли выбирать модель сами.

Демо-чат на странице /try на момент публикации работает только с Qwen3-235B — мульти-модельный селектор в виджете находится в roadmap. Для пробы Kimi прямо сейчас используйте Gateway API: бесплатных 10M токенов хватит для нескольких часов экспериментов. Если в ответ приходит 429 too many concurrent requests — это нормальная фаза для свежей модели на ранних этапах роста сети Gonka. Просто повторите запрос через несколько секунд или дождитесь окна меньшей нагрузки.

Что дальше для сети Gonka: успех DevShards для Kimi открывает дорогу другим моделям. В обсуждениях сообщества фигурируют DeepSeek-V3/R1, Llama 4 и специализированные модели для кода. Каждая новая модель — это новый шард, новые хосты, новые возможности для пользователей и новый источник дохода для GPU-провайдеров. Многомодельная архитектура также важна стратегически: сеть, привязанная к одной модели, фундаментально хрупка (выход новой версии — кризис миграции), а сеть, способная держать несколько моделей одновременно, эволюционирует мягко и непрерывно.

Kimi K2.6 — MoE-модель Moonshot AI с длинным контекстом и сильными reasoning-способностями. В мае 2026 она стала второй моделью сети Gonka после Qwen3-235B, запущенной через механизм DevShards (отдельный шард на модель). Через JoinGonka Gateway доступна по OpenAI-совместимому API за $0.001 за 1M токенов — той же цене, что и Qwen. Идентификатор модели в API: moonshotai/Kimi-K2.6. На раннем этапе возможны временные 429 при концентрации запросов; tool calling в стадии доводки.

Хотите узнать больше?

Изучите другие разделы или начните зарабатывать GNK прямо сейчас.

Попробовать Kimi K2.6 через Gateway →