MiniMax M2.7: Mô hình của mạng Gonka

Vào mùa xuân năm 2026, mạng Gonka đã chuyển đổi từ mạng đơn mô hình sang đa mô hình. Đầu tiên, Kimi K2.6 được thêm vào cùng với mô hình hàng đầu Qwen3-235B, và đến cuối tháng 5 năm 2026 — MiniMax M2.7 từ phòng thí nghiệm MiniMax của Trung Quốc. Sau đó, Qwen3-235B đã được gỡ bỏ khỏi mạng lưới, và hiện nay Gonka đang vận hành hai mô hình đồng thời — Kimi K2.6 và MiniMax M2.7.

Hãy cùng tìm hiểu MiniMax M2.7 là gì, ai đứng sau việc phát triển nó, đặc điểm của nó trong mạng Gonka, sự khác biệt so với mô hình còn lại — Kimi K2.6 — và cách truy cập vào nó thông qua API Gateway của chúng tôi theo giao thức tương thích OpenAI.

MiniMax M2.7 là gì và ai đứng đằng sau mô hình này?

MiniMax M2.7 là một mô hình ngôn ngữ lớn (LLM) từ công ty MiniMax, có trụ sở tại Thượng Hải. MiniMax được thành lập vào năm 2021 bởi một nhóm các nhà nghiên cứu dưới sự lãnh đạo của Yan Junjie (trước đây làm việc tại SenseTime) và nhanh chóng trở thành một trong những phòng thí nghiệm AI hàng đầu Trung Quốc. Công ty đã huy động được tài trợ từ Alibaba, Tencent và HongShan – đây là cùng một nhóm các nhà đầu tư chiến lược đứng sau các “con hổ AI Trung Quốc” khác, bao gồm Moonshot AI, nhà phát triển Kimi K2.6.

Ngoài các mô hình ngôn ngữ thuần túy, MiniMax còn được biết đến với các sản phẩm tiêu dùng: trợ lý trò chuyện Talkie và Hailuo, cũng như một trong những công cụ tạo video đáng chú ý nhất trong ngành. Nhưng đối với mạng Gonka, dòng mô hình văn bản của loạt M – những người kế nhiệm của các mô hình abab trước đó – là quan trọng nhất.

Đặc điểm kiến trúc chính của loạt M là đặt cược vào cơ chế chú ý hiệu quả. Nếu các mô hình lớn đời đầu sử dụng chú ý bậc hai cổ điển (chi phí tính toán tăng tỷ lệ thuận với bình phương độ dài ngữ cảnh), thì MiniMax là một trong những công ty đầu tiên đưa ra chú ý tuyến tính lai vào công khai. Điều này cho phép xử lý các chuỗi rất dài mà không làm tăng chi phí tính toán một cách bùng nổ – đây là dấu ấn lịch sử của dòng sản phẩm này. Giống như Qwen3-235B và Kimi K2.6, mô hình này được xây dựng trên kiến trúc MoE (Mixture of Experts): hàng trăm tỷ tham số “trên giấy”, nhưng chỉ một phần nhỏ trong số chúng được kích hoạt cho mỗi yêu cầu, điều này làm giảm đáng kể chi phí inferenced.

Trong mạng Gonka, mô hình được xác định là MiniMaxAI/MiniMax-M2.7 – đây là chuỗi cần được truyền trong trường model của yêu cầu API. Phiên bản M2.7 là phiên bản mới nhất của loạt M tại thời điểm bài viết được xuất bản.

Đặc điểm của MiniMax M2.7 trong mạng Gonka

Điều quan trọng là phải phân biệt đặc điểm của bản thân mô hình "ngay khi xuất xưởng" (out-of-the-box) và các đặc điểm khi nó được triển khai trong một mạng lưới cụ thể. Khi mô hình hoạt động trong mạng lưới phi tập trung Gonka, các tham số vận hành của nó được thiết lập bởi cấu hình vLLM-inferenced phía các GPU-host, chứ không chỉ dựa trên kiến trúc mô hình. Dưới đây là các giá trị thực tế mà Gateway của chúng tôi cung cấp:

Cửa sổ ngữ cảnh (Context window): 200.000 token (khoảng 150.000 từ). Đây là cấu hình subnet trong mạng lưới Gonka. Bản thân kiến trúc MiniMax hỗ trợ ngữ cảnh dài hơn đáng kể, nhưng giới hạn thực tế tại mỗi thời điểm được quyết định bởi cấu hình inferenced trên các host.
Đầu ra tối đa (Max output): 8.192 token cho một phản hồi. Con số này được đo lường thực nghiệm — bằng một yêu cầu thực hiện tạo nội dung dài có chủ đích, đạt đến giới hạn (finish_reason: length). Hiện tại, giới hạn này giống nhau cho tất cả các mô hình trong mạng — tối đa 8.192 token. Đây không phải là giới hạn của chính mô hình mà là cấu hình vLLM-subnet.
Yêu cầu VRAM của host: khoảng 320 GB VRAM mỗi node. Đây là yêu cầu điển hình cho một mô hình MoE lớn ở định dạng lượng tử hóa FP8 — 320 GB tương tự cũng cần thiết cho Kimi K2.6. Trên thực tế, điều này có nghĩa là cần nhiều GPU loại H100/H200 kết hợp lại trong một node.

Giá inference trong mạng Gonka không phụ thuộc vào việc chọn mô hình mà được xác định bởi các tham số mạng: thông qua JoinGonka Gateway, MiniMax M2.7 khả dụng với cùng mức giá như Kimi K2.6. Giá thống nhất là kết quả của việc mạng lưới dựa trên cơ sở tính toán chi phí duy nhất cho công việc điện toán, thay vì bảng giá của một nhà cung cấp cụ thể.

MiniMax M2.7 và Kimi K2.6 — so sánh các mô hình Gonka

Người dùng mạng Gonka có sự lựa chọn giữa hai mô hình hàng đầu và cả hai đều khả dụng thông qua giao diện tương thích OpenAI duy nhất là JoinGonka Gateway. So sánh dưới đây giúp hiểu không phải "cái nào tốt hơn", mà là mỗi mô hình được tối ưu hóa cho cấu hình tác vụ nào.

Đặc tính	MiniMax M2.7	Kimi K2.6
Nhà sản xuất	MiniMax (Thượng Hải)	Moonshot AI (Bắc Kinh)
Kiến trúc	MoE +attention tuyến tính	MoE
Ngữ cảnh trong Gonka	200.000 token	200.000 token
Đầu ra tối đa	8.192 token	8.192 token
Thế mạnh lịch sử	Ngữ cảnh dài, attention hiệu quả	Reasoning, ngữ cảnh dài
Định danh API	`MiniMaxAI/MiniMax-M2.7`	`moonshotai/Kimi-K2.6`
Trạng thái trong mạng	Đã khởi chạy qua bản nâng cấp v0.2.13 (Tháng 5/2026)	Đã khởi chạy qua DevShards (Tháng 5/2026)

Một lưu ý quan trọng về các tiêu chuẩn đo lường (benchmarks) trong năm 2026: khoảng cách giữa các mô hình open-weights hàng đầu trong các bài kiểm tra công khai đã thu hẹp xuống mức vài phần trăm, và sự khác biệt này thường nằm trong sai số thống kê của chính các benchmark. Đối với công việc thực tế, điều quan trọng không phải là vị trí tuyệt đối trong bảng xếp hạng MMLU, mà là bản chất của tác vụ: độ dài ngữ cảnh, độ phức tạp của chuỗi logic, ngôn ngữ cần thiết, khả năng tool calling.

Định hướng thực tiễn: đối với các tác vụ với tài liệu rất dài và xử lý luồng khối lượng lớn văn bản, nên thử nghiệm MiniMax M2.7 — attention hiệu quả của dòng này từ lâu đã được tối ưu hóa cho các kịch bản như vậy. Đối với các tác vụ reasoning với logic phức tạp và ngữ cảnh dài, nên so sánh phản hồi với Kimi K2.6. Chiến lược tốt nhất trong sản xuất (production) là giữ cả hai mô hình trong mã và chuyển đổi giữa chúng bằng một tham số model duy nhất mà không cần thay đổi kiến trúc ứng dụng.

Cách Gonka khởi chạy MiniMax M2.7: nâng cấp v0.2.13

Việc thêm MiniMax M2.7 không phải là "tải tệp lên máy chủ", mà là kết quả của một bản nâng cấp mạng thông qua bỏ phiếu on-chain. Hỗ trợ cho mô hình đã được đưa vào bản phát hành giao thức v0.2.13, được phê duyệt bởi đề xuất proposal #54: nó được thông qua vào ngày 21 tháng 5 năm 2026 (khoảng 63% phiếu thuận) và kích hoạt ở chiều cao khối được chỉ định. Đây là cơ chế governance giống hệt như cách mà mạng lưới chấp nhận mọi thay đổi quan trọng — từ mức phí đến các mô hình mới.

Tính đa phương thức cho một mạng lưới phi tập trung là một bước đi mang tính nguyên tắc. Một mạng lưới bị ràng buộc vào một mô hình duy nhất về cơ bản rất mong manh: việc ra mắt phiên bản mới của mô hình dẫn đến cuộc khủng hoảng di chuyển, và bất kỳ sự cố nào của mô hình duy nhất sẽ làm sập toàn bộ dịch vụ. Một mạng lưới có khả năng duy trì nhiều mô hình cùng lúc sẽ phát triển một cách nhẹ nhàng: các mô hình mới được thêm vào như những "làn đường" bổ sung, các mô hình cũ tiếp tục hoạt động, và các GPU-host có quyền lựa chọn điều gì cần phục vụ. Về mặt kỹ thuật, mỗi mô hình tồn tại trong một shard riêng của mạng — cùng cơ chế này (DevShards) đã từng được sử dụng để chạy Kimi K2.6 trước đây.

Một điểm đáng lưu ý của các giai đoạn đầu: có thể có độ trễ giữa "mô hình xuất hiện trong danh sách mạng" và "mô hình mở cho tất cả khách hàng". Ban đầu, việc inferenced MiniMax M2.7 ở chế độ broker chỉ khả dụng cho các khóa đặc quyền và trả về lỗi cho các yêu cầu thông thường — đây là giai đoạn vận hành bình thường. Đến cuối tháng 5 năm 2026, quyền truy cập công khai đã được mở và mô hình đã trở nên khả dụng cho tất cả khách hàng của Gateway. Tìm hiểu thêm về cách mạng lưới được xây dựng và lý do tại sao các mô hình được khởi chạy theo cách này trong bài viết về kiến trúc mạng Gonka.

Cũng là MiniMax M2.7 thông qua OpenRouter giá $0.279/$1.20 cho 1M token, so với $0.003/$0.009 tại JoinGonka.

Cách sử dụng MiniMax M2.7 qua JoinGonka Gateway

Cách trực tiếp nhất là thông qua JoinGonka API Gateway. Vì Gateway cung cấp API tương thích với OpenAI, cùng đoạn mã hoạt động với GPT, Claude hoặc Kimi sẽ bắt đầu hoạt động với MiniMax sau khi thay đổi giá trị của trường model.

Ví dụ tối thiểu thông qua curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Giải thích ngắn gọn linear attention là gì"}
    ]
  }'

Cùng yêu cầu đó trên Python thông qua thư viện openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Chào, MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) — dành cho các giao diện tương tác, nơi phản hồi được hiển thị khi đang tạo:

stream = client.chat.completions.create( model="MiniMaxAI/MiniMax-M2.7", messages=[{"role": "user", "content": "Viết một bài luận ngắn về ngữ cảnh dài (long context)"}], stream=True, ) for chunk in stream: delta = chunk.choices[0].delta.content if delta: print(delta, end="", flush=True)

Khi đăng ký JoinGonka Gateway, bạn nhận được 10 triệu token miễn phí để kiểm thử bất kỳ mô hình nào trong mạng — đủ để so sánh cả hai mô hình của mạng trên các tác vụ của riêng bạn.

Khả năng tương thích với các công cụ phát triển: mọi thứ hoạt động với OpenAI API đều hoạt động với MiniMax thông qua Gateway. Chỉ cần thay đổi tham số model:

Cursor: trong cài đặt Custom Model, hãy nhập MiniMaxAI/MiniMax-M2.7
Claude Code, Cline, Continue.dev: tên mô hình trong tệp cấu hình
LangChain, n8n: tham số model khi khởi tạo client

Danh sách mô hình hiện tại luôn có sẵn tại endpoint GET /v1/models — bạn có thể dễ dàng lấy dữ liệu này một cách linh hoạt để giao diện (UI) ứng dụng của bạn tự động hiển thị danh sách mới nhất. Nếu nhận được phản hồi 429 too many concurrent requests — đây là giai đoạn bình thường đối với một mô hình mới trong giai đoạn đầu mở rộng mạng: hãy thử lại sau vài giây.

Khi nào nên chọn MiniMax M2.7 — các kịch bản thực tế

Việc có hai mô hình trong cùng một mạng rất có giá trị vì bạn có thể chọn các công cụ khác nhau cho các tác vụ khác nhau mà không cần thay đổi nhà cung cấp hay mã tích hợp. Dưới đây là các kịch bản nên bắt đầu kiểm thử với MiniMax M2.7.

Phân tích tài liệu dài. Nếu tác vụ là tóm tắt hợp đồng, phân tích tài liệu kỹ thuật, hoặc xử lý các văn bản pháp lý hay tài chính lớn, cơ chế attention hiệu quả của dòng M vốn được tối ưu hóa để giữ ngữ cảnh dài mà không làm tăng chi phí đột biến. Hãy đưa toàn bộ tài liệu vào một yêu cầu và yêu cầu mô hình xử lý toàn bộ thay vì chia nhỏ.

RAG và làm việc với cơ sở tri thức. Trong các kịch bản retrieval-augmented, nơi hàng chục đoạn văn bản từ cơ sở dữ liệu vector được thêm vào ngữ cảnh, khả năng của mô hình trong việc duy trì nhiều mảnh văn bản rời rạc ảnh hưởng trực tiếp đến chất lượng phản hồi. Đây là lợi thế tự nhiên của các mô hình với ngữ cảnh dài.

Xử lý bản ghi và log. Các bản ghi cuộc gọi, hội thoại hỗ trợ dài, log dòng thời gian — là những tác vụ mà khối lượng đầu vào lớn, nhưng phản hồi thường ngắn gọn. Tại đây, giới hạn xuất 8 192 token không gây cản trở: đầu vào rất lớn, đầu ra là các tóm tắt hoặc sự kiện đã được trích xuất.

Khi nào nên chọn mô hình khác. Hiện tại, tất cả các mô hình trong mạng trả về tối đa 8 192 token cho một phản hồi, vì vậy nếu ứng dụng cần một phản hồi rất dài trong một lần yêu cầu (tài liệu tạo lớn, đoạn mã lớn) — hãy tính đến giới hạn này trong kiến trúc và chia nhỏ việc tạo nội dung. Đối với các tác vụ yêu cầu suy luận phức tạp qua nhiều bước, hãy so sánh phản hồi với Kimi K2.6. Lời khuyên chung: hãy chạy cùng một tập hợp các yêu cầu thực tế của bạn qua cả hai mô hình và so sánh kết quả — 10 triệu token miễn phí khi đăng ký là đủ cho một bài kiểm tra so sánh đầy đủ.

Về mặt kỹ thuật, việc chuyển đổi giữa các mô hình chỉ là thay đổi một dòng trong trường model. Do đó, một kiến trúc ứng dụng thông minh trên mạng Gonka không "chọn một mô hình cố định", mà cho phép định tuyến các yêu cầu giữa Kimi K2.6 và MiniMax M2.7 tùy theo loại tác vụ — inference giá rẻ giúp việc định tuyến như vậy trở nên tối ưu về mặt kinh tế.

MiniMax M2.7 là dòng mô hình MoE từ phòng thí nghiệm MiniMax tại Thượng Hải, được thêm vào mạng Gonka vào tháng 5 năm 2026 cùng với Kimi K2.6 (được hỗ trợ từ bản nâng cấp giao thức v0.2.13, proposal #54); đến cuối tháng 5, inference công khai đã được mở cho tất cả mọi người. Trong mạng Gonka, mô hình hoạt động với ngữ cảnh 200 000 token và giới hạn xuất 8 192 token trên mỗi node với ~320 GB VRAM. Thông qua JoinGonka Gateway, người dùng có thể truy cập qua API tương thích với OpenAI; định danh mô hình là MiniMaxAI/MiniMax-M2.7. Dòng M nổi tiếng với cơ chế attention hiệu quả và khả năng xử lý ngữ cảnh dài.

← Kimi K2.6: Mô hình thứ hai của mạng Gonka

Muốn tìm hiểu thêm?

Khám phá các phần khác hoặc bắt đầu kiếm GNK ngay bây giờ.

Thử MiniMax M2.7 qua Gateway →