Các phần cơ sở kiến thức ▾

Công cụ

Công nghệ

Kimi K2.6: Mô hình thứ hai của mạng Gonka

Trong một thời gian dài, mạng Gonka hoạt động trên một mô hình duy nhất—Qwen3-235B từ Alibaba Cloud. Vào tháng 5 năm 2026, điều này đã thay đổi: hỗ trợ cho nhiều mô hình đã được triển khai thông qua cơ chế DevShards, và cái tên đầu tiên là Kimi K2.6 từ công ty Moonshot AI của Trung Quốc. Hãy cùng phân tích mô hình này là gì, nó khác với Qwen3-235B như thế nào, Gonka đã triển khai tính đa mô hình về mặt kỹ thuật ra sao và cách thử nghiệm mô hình mới thông qua API Gateway của chúng tôi.

Kimi K2.6 của Moonshot AI là gì

Kimi K2.6 là một mô hình ngôn ngữ lớn (LLM) thuộc dòng Kimi, được phát triển bởi công ty Bắc Kinh Moonshot AI. Moonshot AI là một trong những phòng thí nghiệm AI hàng đầu của Trung Quốc, được thành lập vào năm 2023 bởi một nhóm các nhà nghiên cứu dưới sự lãnh đạo của Yang Zhilin. Công ty đã thu hút tài trợ từ Alibaba, Tencent và các nhà đầu tư lớn khác và lọt vào danh sách "hổ AI Trung Quốc" — các công ty đang tạo ra tốc độ phát triển AI ở châu Á.

Dòng Kimi đã được biết đến từ năm 2024. Các phiên bản đầu (K1, K1.5) ngay lập tức thu hút sự chú ý với cửa sổ ngữ cảnh cực kỳ dài — lên đến 200.000 token trong một yêu cầu, tại thời điểm phát hành là một kỷ lục đối với các mô hình có sẵn công khai. Ngữ cảnh dài có nghĩa là khả năng thực tế để phân tích toàn bộ một cuốn sách, một cơ sở mã cỡ trung bình hoặc một bộ tài liệu pháp lý chỉ trong một yêu cầu. Tại thời điểm Kimi ra mắt, đặc điểm này là một lợi thế cạnh tranh mạnh mẽ.

Phiên bản K2 xuất hiện vào năm 2025 và mang lại một bước nhảy vọt kiến trúc cơ bản — chuyển sang MoE (Mixture of Experts). Kiến trúc tương tự cũng là nền tảng của Qwen3-235B và DeepSeek-R1 — nó đã trở thành tiêu chuẩn thực tế cho các mô hình lớn nhất từ năm 2025—2026. MoE cho phép có hàng trăm tỷ tham số "tổng cộng", nhưng chỉ kích hoạt một tập hợp con (thường là 5—10%) cho mỗi yêu cầu, điều này làm giảm đáng kể chi phí tính toán inference với chất lượng tương đương.

K2.6 là phiên bản lặp mới nhất của dòng K2 tại thời điểm viết bài này. Từ các tuyên bố công khai của Moonshot AI, rõ ràng là trong phiên bản này, khả năng của mô hình trong reasoning (suy luận logic), tạo mã và gọi công cụ gốc (tool calling) đã được cải thiện. Trong mạng Gonka, mô hình được xác định là moonshotai/Kimi-K2.6 — đây chính là tên cần truyền vào trường model của yêu cầu API.

So sánh Kimi K2.6 và Qwen3-235B

Cả hai mô hình đều đại diện cho sự phát triển hàng đầu của các phòng thí nghiệm AI lớn nhất Trung Quốc và cả hai đều có sẵn thông qua một giao diện tương thích OpenAI duy nhất JoinGonka Gateway. Tuy nhiên, chúng có những điểm mạnh khác nhau và di sản khác nhau, điều này làm cho việc lựa chọn giữa chúng không phải là câu hỏi "cái nào tốt hơn", mà là câu hỏi "cái nào phù hợp với công việc".

Đặc điểmKimi K2.6Qwen3-235B-A22B
Nhà sản xuấtMoonshot AI (Bắc Kinh)Alibaba Cloud (Hàng Châu)
Năm thành lập công ty20232009 (Alibaba Cloud)
Kiến trúcMoEMoE (tổng cộng 235B, 22B hoạt động)
Cửa sổ ngữ cảnhNgữ cảnh dài (đặc trưng của dòng Kimi)131.072 token (~100.000 từ)
Điểm mạnhLý luận, ngữ cảnh dài, tạo mãĐa năng, đa ngôn ngữ (119 ngôn ngữ), gọi công cụ ổn định
Giá qua JoinGonka$0.001 cho 1 triệu token$0.001 cho 1 triệu token
ID APImoonshotai/Kimi-K2.6Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
Gọi công cụĐang trong giai đoạn hoàn thiện (tự động lựa chọn)Gốc, ổn định (PR #767)
Trạng thái trong mạng GonkaTriển khai qua DevShards (tháng 5 năm 2026)Ổn định từ tháng 8 năm 2025

Trên các điểm chuẩn về lý luận (MATH-500, GSM8K, AIME), dòng Kimi K2 lịch sử cho thấy kết quả nằm trong nhóm đầu của các mô hình open-weights, cạnh tranh với DeepSeek-R1 và các mô hình kiểu o1. Đối với các tác vụ tạo mã (HumanEval, MBPP), cả hai mô hình đều duy trì ở mức tương tự. Về đa ngôn ngữ và dịch thuật, Qwen3-235B có lợi thế nhờ việc đào tạo trên 119 ngôn ngữ, trong khi Kimi được tối ưu hóa mạnh hơn cho tiếng Trung và tiếng Anh.

Một lưu ý quan trọng về các điểm chuẩn vào năm 2026: khoảng cách giữa các mô hình hàng đầu trong các bài kiểm tra công khai đã giảm xuống chỉ còn vài phần trăm, và sự khác biệt này thường nằm trong phạm vi sai số thống kê của chính các điểm chuẩn. Đối với công việc thực tế, điều quan trọng không phải là "ai cao hơn 2% trong MMLU", mà là bản chất của các tác vụ: bạn truyền ngữ cảnh nào cho mô hình, các chuỗi logic phức tạp đến mức nào, có cần lịch sử hội thoại dài không, ngôn ngữ nào được sử dụng. Do đó, bảng trên không xếp hạng các mô hình — nó giúp nhanh chóng hiểu từng mô hình được tối ưu hóa cho loại công việc nào.

Để lựa chọn thực tế: nếu công việc yêu cầu ngữ cảnh dài (phân tích tài liệu lớn, đọc cơ sở mã lớn, hội thoại dài với việc giữ lại lịch sử) hoặc các tác vụ lý luận phức tạp — nên bắt đầu với Kimi K2.6. Đối với các tác vụ đa năng, dịch thuật, công việc đa ngôn ngữ và gọi công cụ ổn định trong môi trường sản xuất — Qwen3-235B hiện vẫn là một lựa chọn đã được kiểm chứng hơn, vì nó đã hoạt động trong mạng Gonka lâu hơn. Một chiến lược tốt trong môi trường sản xuất là có cả hai mô hình trong mã của bạn: thay đổi nhanh chóng thông qua tham số model cho phép bạn chuyển đổi giữa chúng tùy thuộc vào tác vụ mà không thay đổi kiến trúc ứng dụng.

DevShards: Gonka đã khởi chạy mô hình thứ hai như thế nào

Cho đến mùa xuân năm 2026, toàn bộ mạng Gonka chỉ phục vụ đúng một mô hình — Qwen3-235B. Về mặt kiến trúc, đây là một quyết định có ý nghĩa: inference phân tán thông qua DiLoCo yêu cầu tất cả những người tham gia mạng phải giữ cùng một mô hình trong VRAM, nếu không thì không thể đảm bảo rằng bất kỳ nút nào cũng có thể xử lý bất kỳ yêu cầu nào. Qwen3-235B đầy đủ ở định dạng FP8 chiếm khoảng 640 GB VRAM, bản thân nó đã là một cam kết rất lớn đối với mỗi nút ML.

Để chuyển sang mạng đa mô hình, cần có một cơ chế cho phép giữ nhiều mô hình cùng lúc, nhưng không yêu cầu mỗi máy chủ phải chạy tất cả chúng. Cơ chế này là DevShards — các Shard riêng biệt của mạng, mỗi Shard chuyên về một mô hình. Các nút bên trong một Shard làm việc trên cùng một mô hình, và bộ định tuyến mạng sẽ định tuyến yêu cầu đến Shard với mô hình cần thiết.

Ý tưởng này không đến từ hư không — nó đã được chính thức hóa trong Gonka Improvement Proposal #800 "Multi-Model PoC", được đưa ra bỏ phiếu cộng đồng vào mùa xuân năm 2026. Đề xuất đã nhận được sự ủng hộ của những người tham gia và người xác nhận của mạng và đã được triển khai vào tháng 4—5 năm 2026. Kimi K2.6 trở thành mô hình đầu tiên được ra mắt trên một DevShard riêng — tức là thực tế là một triển khai thử nghiệm của phương pháp tiếp cận mới. Nếu trải nghiệm thành công, không có gì ngăn cản việc ra mắt mô hình thứ ba, thứ tư, v.v. — mỗi mô hình trên Shard riêng của nó, với tập hợp máy chủ riêng, kinh tế riêng và lộ trình riêng.

Điều này có ý nghĩa gì đối với người dùng và nhà phát triển:

  • Một API — nhiều mô hình. Thông qua JoinGonka Gateway, không cần thay đổi điểm cuối hoặc khóa: chỉ cần chỉ định một model khác trong phần thân yêu cầu. Định dạng tương thích OpenAI được giữ nguyên hoàn toàn.
  • Giá vẫn như cũ. Hiện tại Kimi K2.6 trong mạng được tính phí với mức tương tự như Qwen3-235B — 0,001 đô la cho 1 triệu token thông qua Gateway. Trong tương lai, giá có thể khác nhau tùy theo mô hình, nhưng việc định giá thống nhất khi bắt đầu là một quyết định có ý thức để đơn giản hóa việc di chuyển người dùng.
  • Tính ổn định phụ thuộc vào tải của Shard. Ở giai đoạn đầu, Shard Kimi có ít máy chủ hơn Shard Qwen chính, do đó khi có sự tập trung các yêu cầu, mô hình có thể tạm thời trả về 429 quá nhiều yêu cầu đồng thời. Đây là giai đoạn bình thường đối với một mô hình mới — khi sự quan tâm tăng lên, các máy chủ sẽ kết nối với Shard Kimi, và giới hạn sẽ tăng lên.
  • Gọi công cụ — đang trong quá trình hoàn thiện. Tại thời điểm viết bài này, Kimi K2.6 trong mạng Gonka có một số vấn đề nhỏ với việc tự động lựa chọn công cụ (tool_choice: "auto"). Nhóm Gonka đang làm việc để đưa hành vi về tiêu chuẩn OpenAI; đối với các kịch bản quan trọng trong môi trường sản xuất với gọi công cụ, hiện tại nên sử dụng Qwen3-235B.

Cách thử Kimi K2.6 qua Gonka

Cách trực tiếp nhất là thông qua JoinGonka API Gateway. Gateway cung cấp API tương thích OpenAI, có nghĩa là: cùng một mã hoạt động với GPT, Claude hoặc Qwen sẽ bắt đầu hoạt động với Kimi sau khi thay đổi giá trị của trường model trong phần thân yêu cầu.

Ví dụ tối thiểu thông qua curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2.6",
    "messages": [
      {"role": "user", "content": "Giải thích sự khác biệt giữa mô hình MoE và dense"}
    ]
  }'

Cùng một yêu cầu với Python thông qua thư viện openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Chào Kimi"}],
)
print(response.choices[0].message.content)

Stream (Server-Sent Events) — cho các giao diện tương tác và trò chuyện, nơi bạn muốn hiển thị câu trả lời khi nó được tạo ra:

stream = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "Viết một bài luận về MoE"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Chi phí của Kimi K2.6 — vẫn là 0,001 đô la cho 1 triệu token, giống như Qwen3-235B. Điều này rẻ hơn ~2.500 lần so với GPT-5.4 và rẻ hơn ~3.000 lần so với Claude Sonnet 4.5. Khi đăng ký JoinGonka Gateway, bạn sẽ nhận được miễn phí 10 triệu token để kiểm tra bất kỳ mô hình nào của mạng — đủ cho vài giờ làm việc chuyên sâu hoặc hàng chục nghìn yêu cầu thông thường.

Khả năng tương thích với các công cụ phát triển: mọi thứ hoạt động với OpenAI API đều hoạt động với Kimi thông qua Gateway. Ở cấp độ mô hình, chỉ cần thay đổi tham số model:

  • Cursor: trong cài đặt Custom Model, chỉ định moonshotai/Kimi-K2.6
  • Claude Code: biến môi trường ANTHROPIC_MODEL hoặc cờ --model
  • OpenClaw, Cline, Continue.dev: trong cấu hình CustomChatModel, thay đổi tên mô hình
  • LangChain, n8n: tham số model trong việc khởi tạo client
  • Open WebUI, LibreChat: mô hình xuất hiện trong danh sách thả xuống sau khi thêm Gonka làm nhà cung cấp tùy chỉnh

Danh sách các mô hình có sẵn luôn được cập nhật trong điểm cuối GET /v1/models của thể hiện Gateway của bạn — từ đó rất tiện lợi để tải động vào giao diện người dùng của ứng dụng của bạn, để người dùng có thể thấy danh sách đầy đủ và tự chọn mô hình.

Trò chuyện demo trên trang /try tại thời điểm xuất bản chỉ hoạt động với Qwen3-235B — bộ chọn đa mô hình trong widget nằm trong lộ trình. Để thử Kimi ngay bây giờ, hãy sử dụng Gateway API: 10 triệu token miễn phí đủ cho vài giờ thử nghiệm. Nếu bạn nhận được 429 quá nhiều yêu cầu đồng thời — đây là giai đoạn bình thường đối với một mô hình mới ở giai đoạn đầu phát triển của mạng Gonka. Chỉ cần lặp lại yêu cầu sau vài giây hoặc đợi đến khi tải giảm.

Điều gì tiếp theo cho mạng Gonka: sự thành công của DevShards cho Kimi mở đường cho các mô hình khác. Trong các cuộc thảo luận của cộng đồng, DeepSeek-V3/R1, Llama 4 và các mô hình chuyên biệt cho mã đang được đề cập. Mỗi mô hình mới là một shard mới, các máy chủ mới, cơ hội mới cho người dùng và một nguồn doanh thu mới cho các nhà cung cấp GPU. Kiến trúc đa mô hình cũng rất quan trọng về mặt chiến lược: một mạng chỉ gắn với một mô hình về cơ bản là mong manh (việc phát hành phiên bản mới là một cuộc khủng hoảng di chuyển), trong khi một mạng có khả năng giữ nhiều mô hình cùng lúc sẽ phát triển mềm mỏng và liên tục.

Kimi K2.6 — mô hình MoE của Moonshot AI với ngữ cảnh dài và khả năng lập luận mạnh mẽ. Vào tháng 5 năm 2026, nó trở thành mô hình thứ hai của mạng Gonka sau Qwen3-235B, được triển khai thông qua cơ chế DevShards (một shard riêng cho mỗi mô hình). Thông qua JoinGonka Gateway, nó có sẵn với API tương thích OpenAI với giá 0,001 đô la cho 1 triệu token — cùng giá với Qwen. Mã định danh mô hình trong API: moonshotai/Kimi-K2.6. Ở giai đoạn đầu, có thể có các lỗi 429 tạm thời khi tập trung yêu cầu; tool calling đang trong giai đoạn hoàn thiện.

Muốn tìm hiểu thêm?

Khám phá các phần khác hoặc bắt đầu kiếm GNK ngay bây giờ.

Thử Kimi K2.6 qua Gateway →