Kimi K2.6: Mô hình thứ hai của mạng Gonka

Trong một thời gian dài, Gonka chạy trên một mô hình duy nhất — Qwen3-235B từ Alibaba Cloud. Vào tháng 5 năm 2026, điều này đã thay đổi: hỗ trợ cho nhiều mô hình đã được ra mắt thông qua cơ chế DevShards, và kẻ tiên phong đầu tiên là Kimi K2.6 từ công ty Moonshot AI của Trung Quốc. Sau đó, MiniMax M2.7 đã được bổ sung, và Qwen3-235B dần dần bị loại bỏ khỏi mạng lưới — hiện tại Gonka vận hành hai mô hình: Kimi K2.6 và MiniMax M2.7. Chúng ta hãy tìm hiểu xem đây là mô hình gì, nó khác biệt thế nào với MiniMax M2.7, cách Gonka triển khai kỹ thuật đa mô hình và cách thử nghiệm nó qua API Gateway của chúng tôi.

Kimi K2.6 của Moonshot AI là gì

Kimi K2.6 là một mô hình ngôn ngữ lớn (LLM) thuộc dòng Kimi, được phát triển bởi công ty Bắc Kinh Moonshot AI. Moonshot AI là một trong những phòng thí nghiệm AI hàng đầu của Trung Quốc, được thành lập vào năm 2023 bởi một nhóm các nhà nghiên cứu dưới sự lãnh đạo của Yang Zhilin. Công ty đã thu hút tài trợ từ Alibaba, Tencent và các nhà đầu tư lớn khác và lọt vào danh sách "hổ AI Trung Quốc" — các công ty đang tạo ra tốc độ phát triển AI ở châu Á.

Dòng Kimi đã được biết đến từ năm 2024. Các phiên bản đầu (K1, K1.5) ngay lập tức thu hút sự chú ý với cửa sổ ngữ cảnh cực kỳ dài — lên đến 200.000 token trong một yêu cầu, tại thời điểm phát hành là một kỷ lục đối với các mô hình có sẵn công khai. Ngữ cảnh dài có nghĩa là khả năng thực tế để phân tích toàn bộ một cuốn sách, một cơ sở mã cỡ trung bình hoặc một bộ tài liệu pháp lý chỉ trong một yêu cầu. Tại thời điểm Kimi ra mắt, đặc điểm này là một lợi thế cạnh tranh mạnh mẽ.

Phiên bản K2 xuất hiện vào năm 2025 và mang lại một bước nhảy vọt kiến trúc cơ bản — chuyển sang MoE (Mixture of Experts). Kiến trúc tương tự cũng là nền tảng của Qwen3-235B và DeepSeek-R1 — nó đã trở thành tiêu chuẩn thực tế cho các mô hình lớn nhất từ năm 2025—2026. MoE cho phép có hàng trăm tỷ tham số "tổng cộng", nhưng chỉ kích hoạt một tập hợp con (thường là 5—10%) cho mỗi yêu cầu, điều này làm giảm đáng kể chi phí tính toán inference với chất lượng tương đương.

K2.6 là phiên bản lặp mới nhất của dòng K2 tại thời điểm viết bài này. Từ các tuyên bố công khai của Moonshot AI, rõ ràng là trong phiên bản này, khả năng của mô hình trong reasoning (suy luận logic), tạo mã và gọi công cụ gốc (tool calling) đã được cải thiện. Trong mạng Gonka, mô hình được xác định là moonshotai/Kimi-K2.6 — đây chính là tên cần truyền vào trường model của yêu cầu API.

So sánh Kimi K2.6 và MiniMax M2.7

Cả hai mô hình đều đại diện cho những thành tựu hàng đầu từ các phòng thí nghiệm AI lớn nhất của Trung Quốc và đều có thể truy cập thông qua giao diện OpenAI-compatible duy nhất là JoinGonka Gateway. Tuy nhiên, chúng có những thế mạnh và di sản khác nhau, khiến việc lựa chọn giữa chúng không phải là câu hỏi "cái nào tốt hơn" mà là "cái nào phù hợp với tác vụ".

Đặc tính	Kimi K2.6	MiniMax M2.7
Nhà sản xuất	Moonshot AI (Bắc Kinh)	MiniMax (Thượng Hải)
Năm thành lập	2023	2021
Kiến trúc	MoE	MoE + linear attention
Cửa sổ ngữ cảnh	200,000 tokens	200,000 tokens
Điểm mạnh	Reasoning, ngữ cảnh dài, code generation	Ngữ cảnh dài, hiệu quả (linear) attention
Giá qua JoinGonka	$0.003 cho 1M tokens	$0.003 cho 1M tokens
Định danh API	`moonshotai/Kimi-K2.6`	`MiniMaxAI/MiniMax-M2.7`
Trạng thái trong mạng Gonka	Đã khởi chạy qua DevShards (tháng 5/2026)	Đã khởi chạy qua nâng cấp v0.2.13 (tháng 5/2026)

Trên các benchmark về reasoning (MATH-500, GSM8K, AIME), chuỗi Kimi K2 lịch sử luôn cho thấy kết quả ở nhóm đầu của các mô hình open-weights, cạnh tranh với DeepSeek-R1 và các mô hình o1-style. Trong các tác vụ code generation (HumanEval, MBPP), cả hai mô hình đều duy trì mức độ tương đương. Thế mạnh của MiniMax M2.7 là hiệu quả (linear) attention cho các chuỗi rất dài, trong khi Kimi nổi tiếng với khả năng reasoning mạnh mẽ và ngữ cảnh dài của dòng Kimi.

Một lưu ý quan trọng về các benchmark trong năm 2026: khoảng cách giữa các mô hình hàng đầu trong các bài kiểm tra công khai đã thu hẹp xuống còn vài phần trăm, và sự khác biệt này thường nằm trong sai số thống kê của chính các benchmark. Đối với công việc thực tế, vấn đề không phải là "ai cao hơn 2% trong MMLU", mà là đặc thù của tác vụ: bạn truyền ngữ cảnh gì cho mô hình, các chuỗi logic phức tạp đến mức nào, bạn có cần lịch sử hội thoại dài không, các ngôn ngữ nào được sử dụng. Vì vậy, bảng trên không xếp hạng các mô hình — nó giúp bạn nhanh chóng hiểu được mô hình nào được tối ưu hóa cho cấu hình tác vụ nào.

Để lựa chọn thực tế: nếu tác vụ đòi hỏi ngữ cảnh dài (phân tích tài liệu lớn, đọc cơ sở mã khổng lồ, hội thoại dài với việc lưu giữ lịch sử) hoặc các tác vụ reasoning phức tạp — hãy bắt đầu với Kimi K2.6. Nếu ưu tiên là xử lý các chuỗi đầu vào rất dài và dữ liệu luồng (stream) — hãy thử nghiệm MiniMax M2.7 với hiệu quả attention của nó. Chiến lược tốt trong production là có cả hai mô hình trong code của bạn: việc thay đổi nhanh qua tham số model cho phép chuyển đổi giữa chúng tùy thuộc vào tác vụ mà không cần thay đổi kiến trúc ứng dụng.

DevShards: Gonka đã khởi chạy mô hình thứ hai như thế nào

Cho đến mùa xuân năm 2026, toàn bộ mạng lưới Gonka chỉ phục vụ đúng một mô hình — Qwen3-235B. Từ góc độ kiến trúc, đây là một quyết định hợp lý: distributed inference thông qua DiLoCo yêu cầu tất cả các thành viên trong mạng lưới phải lưu trữ cùng một mô hình trong bộ nhớ video, nếu không sẽ không thể đảm bảo rằng bất kỳ node nào cũng có thể xử lý bất kỳ yêu cầu nào. Qwen3-235B hoàn chỉnh ở định dạng FP8 chiếm khoảng 640 GB VRAM, đây tự nó đã là một cam kết khổng lồ đối với mỗi MLNode.

Để chuyển sang mạng lưới đa mô hình, cần có một cơ chế cho phép lưu trữ nhiều mô hình đồng thời mà không yêu cầu mỗi host phải chạy tất cả chúng. Cơ chế này chính là DevShards — các shard riêng biệt của mạng lưới, mỗi shard chuyên về một mô hình. Các node trong cùng một shard làm việc trên cùng một mô hình, và bộ định tuyến của mạng lưới sẽ điều hướng yêu cầu đến shard có mô hình mong muốn.

Ý tưởng này không tự nhiên mà có — nó đã được chính thức hóa trong Gonka Improvement Proposal #800 «Multi-Model PoC», được đưa ra để cộng đồng bỏ phiếu vào mùa xuân năm 2026. Đề xuất này đã nhận được sự ủng hộ của những người tham gia và các validator của mạng lưới, và đã được thực hiện từ tháng 4 đến tháng 5 năm 2026. Kimi K2.6 trở thành mô hình đầu tiên được triển khai trên một DevShard riêng biệt — về cơ bản là một triển khai thử nghiệm của phương pháp tiếp cận mới. Nếu kinh nghiệm này thành công, sẽ không có gì ngăn cản việc triển khai mô hình thứ ba, thứ tư, v.v. — mỗi mô hình trên shard riêng, với tập hợp host riêng, nền kinh tế riêng và roadmap riêng.

Điều này có ý nghĩa gì đối với người dùng và nhà phát triển:

Một API — nhiều mô hình. Thông qua JoinGonka Gateway, không cần phải thay đổi endpoint hoặc khóa: chỉ cần chỉ định một model khác trong phần thân của yêu cầu. Định dạng tương thích với OpenAI được giữ nguyên hoàn toàn.
Giá cả không đổi. Hiện tại Kimi K2.6 trong mạng lưới được tính phí theo cùng mức giá với MiniMax M2.7 — $0.003 cho 1 triệu token thông qua Gateway. Trong tương lai, giá cả có thể khác nhau tùy theo mô hình, nhưng mức giá thống nhất lúc bắt đầu là một quyết định có chủ ý nhằm đơn giản hóa việc chuyển đổi cho người dùng.
Độ ổn định phụ thuộc vào tải của shard. Ở giai đoạn đầu, shard của mô hình mới có ít host hơn, do đó khi có sự tập trung yêu cầu, mô hình có thể tạm thời trả về 429 too many concurrent requests. Đây là giai đoạn bình thường đối với một mô hình mới — khi sự quan tâm tăng lên, các host sẽ kết nối với shard đó và các giới hạn sẽ tăng lên.
Tool calling — đang trong quá trình hoàn thiện. Tại thời điểm viết bài, Kimi K2.6 trong mạng Gonka vẫn ghi nhận các vấn đề nhỏ với việc tự động chọn công cụ (tool_choice: "auto"). Đội ngũ Gonka đang làm việc để đưa hành vi này về tiêu chuẩn của OpenAI; đối với các kịch bản quan trọng trong môi trường production có sử dụng tool calling, hãy kiểm tra hành vi của mô hình trước với các yêu cầu của bạn.

Cách thử Kimi K2.6 qua Gonka

Cách đơn giản nhất là thông qua JoinGonka API Gateway. Gateway cung cấp API tương thích với OpenAI, nghĩa là: cùng một mã hoạt động với GPT, Claude hoặc các mô hình khác sẽ bắt đầu hoạt động với Kimi sau khi thay đổi giá trị của trường model trong phần thân yêu cầu.

Ví dụ tối thiểu thông qua curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2.6",
    "messages": [
      {"role": "user", "content": "Giải thích sự khác biệt giữa MoE và mô hình dense"}
    ]
  }'

Cùng yêu cầu đó với Python thông qua thư viện openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Chào Kimi"}],
)
print(response.choices[0].message.content)

Truyền phát (Server-Sent Events) — dành cho các giao diện tương tác và trò chuyện, nơi bạn muốn hiển thị phản hồi ngay khi nó đang được tạo:

stream = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Viết một bài luận về MoE"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Chi phí của Kimi K2.6 là $0.003 cho 1 triệu token, mức giá thống nhất của mạng lưới. Mức này rẻ hơn khoảng 1.700 lần so với GPT-5.5 và rẻ hơn khoảng 1.000 lần so với Claude Sonnet 4.6. Khi đăng ký trên JoinGonka Gateway, bạn nhận được miễn phí 10 triệu token để kiểm tra bất kỳ mô hình nào trong mạng lưới — đủ cho vài giờ làm việc cường độ cao hoặc hàng chục nghìn yêu cầu thông thường.

Khả năng tương thích với các công cụ phát triển: mọi thứ hoạt động với OpenAI API đều hoạt động với Kimi thông qua Gateway. Ở cấp độ mô hình, chỉ cần thay đổi tham số model:

Cursor: trong cài đặt Custom Model, hãy chỉ định moonshotai/Kimi-K2.6
Claude Code: biến môi trường ANTHROPIC_MODEL hoặc flag --model
OpenClaw, Cline, Continue.dev: trong cấu hình CustomChatModel, hãy đổi tên mô hình
LangChain, n8n: tham số model trong quá trình khởi tạo client
Open WebUI, LibreChat: mô hình xuất hiện trong danh sách thả xuống sau khi thêm Gonka như một nhà cung cấp tùy chỉnh

Danh sách các mô hình khả dụng luôn được cập nhật tại endpoint GET /v1/models của Gateway-instance của bạn — từ đó bạn có thể dễ dàng lấy danh sách này linh động vào UI của ứng dụng để người dùng có thể xem toàn bộ danh sách và tự chọn mô hình.

Trang trò chuyện demo tại /try vào thời điểm xuất bản đang sử dụng một trong những mô hình hoạt động hiệu quả của mạng lưới — trình chọn đa mô hình trong widget nằm trong lộ trình phát triển. Để thử Kimi ngay bây giờ, hãy sử dụng Gateway API: 10M token miễn phí là đủ cho vài giờ thử nghiệm. Nếu phản hồi trả về 429 too many concurrent requests — đây là giai đoạn bình thường đối với một mô hình mới trong giai đoạn phát triển sớm của mạng lưới Gonka. Chỉ cần gửi lại yêu cầu sau vài giây hoặc đợi thời điểm lưu lượng truy cập thấp hơn.

Điều gì tiếp theo cho mạng lưới Gonka: thành công của DevShards cho Kimi mở đường cho các mô hình khác. Các thảo luận trong cộng đồng đang nhắc đến DeepSeek-V3/R1, Llama 4 và các mô hình chuyên dụng cho mã nguồn. Mỗi mô hình mới là một shard mới, các host mới, các cơ hội mới cho người dùng và nguồn thu nhập mới cho các nhà cung cấp GPU. Kiến trúc đa mô hình cũng mang tính chiến lược quan trọng: mạng lưới gắn liền với một mô hình duy nhất sẽ về cơ bản rất dễ đổ vỡ (phiên bản mới ra mắt là một cuộc khủng hoảng di cư), trong khi mạng lưới có khả năng hỗ trợ nhiều mô hình cùng lúc sẽ tiến hóa một cách nhẹ nhàng và liên tục.

Cùng một Kimi K2.6 qua OpenRouter — $0.684/$3.42 cho 1M, so với $0.003 tại JoinGonka (đắt hơn hàng trăm lần).

Kimi K2.6 là mô hình MoE của Moonshot AI với bối cảnh dài và khả năng lập luận mạnh mẽ. Vào tháng 5 năm 2026, nó đã trở thành mô hình thứ hai của mạng lưới Gonka sau Qwen3-235B, được ra mắt thông qua cơ chế DevShards (shard riêng cho từng mô hình). Thông qua JoinGonka Gateway, người dùng có thể truy cập với API tương thích OpenAI với mức giá $0.003 cho 1 triệu token — mức giá thống nhất của mạng lưới. Định danh mô hình trong API: moonshotai/Kimi-K2.6. Ở giai đoạn đầu, lỗi 429 tạm thời có thể xảy ra khi có sự tập trung yêu cầu; tool calling đang trong giai đoạn hoàn thiện.

← Qwen3-235B: mô hình mà Gonka đã từng phục vụ MiniMax M2.7: Mô hình của mạng Gonka →

Muốn tìm hiểu thêm?

Khám phá các phần khác hoặc bắt đầu kiếm GNK ngay bây giờ.

Thử Kimi K2.6 qua Gateway →