Các phần cơ sở kiến thức ▾

Công cụ

Công nghệ

MiniMax M2.7: Mô hình thứ ba của mạng Gonka

Vào mùa xuân năm 2026, mạng Gonka đã chuyển từ một mô hình đơn sang nhiều mô hình. Đầu tiên, Kimi K2.6 được thêm vào Qwen3-235B hàng đầu, và vào cuối tháng 5 năm 2026 – mô hình thứ ba, MiniMax M2.7, từ phòng thí nghiệm MiniMax của Trung Quốc. Đây là lần đầu tiên trong lịch sử mạng mà nó đồng thời phục vụ ba mô hình ngôn ngữ lớn độc lập.

Hãy cùng tìm hiểu MiniMax M2.7 là gì, ai đứng sau sự phát triển của nó, đặc điểm của nó trong mạng Gonka, nó khác với hai mô hình hiện có như thế nào và cách truy cập nó thông qua API Gateway của chúng tôi bằng giao thức tương thích OpenAI.

MiniMax M2.7 là gì và ai đứng đằng sau mô hình này?

MiniMax M2.7 là một mô hình ngôn ngữ lớn (LLM) từ công ty MiniMax, có trụ sở tại Thượng Hải. MiniMax được thành lập vào năm 2021 bởi một nhóm các nhà nghiên cứu dưới sự lãnh đạo của Yan Junjie (trước đây làm việc tại SenseTime) và nhanh chóng trở thành một trong những phòng thí nghiệm AI hàng đầu Trung Quốc. Công ty đã huy động được tài trợ từ Alibaba, Tencent và HongShan – đây là cùng một nhóm các nhà đầu tư chiến lược đứng sau các “con hổ AI Trung Quốc” khác, bao gồm Moonshot AI, nhà phát triển Kimi K2.6.

Ngoài các mô hình ngôn ngữ thuần túy, MiniMax còn được biết đến với các sản phẩm tiêu dùng: trợ lý trò chuyện Talkie và Hailuo, cũng như một trong những công cụ tạo video đáng chú ý nhất trong ngành. Nhưng đối với mạng Gonka, dòng mô hình văn bản của loạt M – những người kế nhiệm của các mô hình abab trước đó – là quan trọng nhất.

Đặc điểm kiến trúc chính của loạt M là đặt cược vào cơ chế chú ý hiệu quả. Nếu các mô hình lớn đời đầu sử dụng chú ý bậc hai cổ điển (chi phí tính toán tăng tỷ lệ thuận với bình phương độ dài ngữ cảnh), thì MiniMax là một trong những công ty đầu tiên đưa ra chú ý tuyến tính lai vào công khai. Điều này cho phép xử lý các chuỗi rất dài mà không làm tăng chi phí tính toán một cách bùng nổ – đây là dấu ấn lịch sử của dòng sản phẩm này. Giống như Qwen3-235B và Kimi K2.6, mô hình này được xây dựng trên kiến trúc MoE (Mixture of Experts): hàng trăm tỷ tham số “trên giấy”, nhưng chỉ một phần nhỏ trong số chúng được kích hoạt cho mỗi yêu cầu, điều này làm giảm đáng kể chi phí inferenced.

Trong mạng Gonka, mô hình được xác định là MiniMaxAI/MiniMax-M2.7 – đây là chuỗi cần được truyền trong trường model của yêu cầu API. Phiên bản M2.7 là phiên bản mới nhất của loạt M tại thời điểm bài viết được xuất bản.

Đặc điểm của MiniMax M2.7 trong mạng Gonka

Điều quan trọng là phải phân biệt các đặc điểm của mô hình “nguyên bản” và các đặc điểm mà nó được triển khai trong một mạng cụ thể. Khi mô hình hoạt động trong mạng Gonka phi tập trung, các thông số hoạt động của nó được xác định bởi cấu hình inferenced vLLM trên các máy chủ GPU, chứ không chỉ kiến trúc của mô hình. Dưới đây là các giá trị thực tế mà Gateway của chúng tôi trả về:

  • Cửa sổ ngữ cảnh: 131.072 token (khoảng 100.000 từ). Đây là cấu hình subnet trong mạng Gonka. Kiến trúc MiniMax tự nó hỗ trợ ngữ cảnh dài hơn đáng kể, nhưng giới hạn thực tế tại mỗi thời điểm được đặt bởi cài đặt inferenced trên các máy chủ.
  • Đầu ra tối đa: 4.096 token cho một phản hồi. Con số này được đo lường thực nghiệm – bằng một yêu cầu với việc tạo ra dài cưỡng bức, đạt đến giới hạn (finish_reason: length). Để so sánh, Qwen3-235B có giới hạn này là 8.192, Kimi K2.6 là 3.072 token. Đây không phải là giới hạn của chính mô hình mà là cấu hình của vLLM-subnet.
  • Yêu cầu VRAM của máy chủ: khoảng 320 GB VRAM trên mỗi node. Đây là yêu cầu điển hình cho một mô hình MoE lớn trong lượng tử hóa FP8 – cùng 320 GB là cần thiết cho Qwen3-235B và Kimi K2.6. Trong thực tế, điều này có nghĩa là nhiều GPU loại H100/H200, được kết hợp thành một node.

Giá inferenced trong mạng Gonka không phụ thuộc vào việc lựa chọn mô hình và được xác định bởi các thông số mạng: thông qua JoinGonka Gateway, MiniMax M2.7 có sẵn với cùng một mức giá với Qwen và Kimi. Giá thống nhất là hệ quả của việc mạng dựa trên một tính toán chi phí duy nhất cho công việc tính toán, chứ không phải giá của một nhà cung cấp cụ thể.

MiniMax M2.7, Qwen3-235B và Kimi K2.6 — so sánh ba mô hình Gonka

Lần đầu tiên, người dùng mạng Gonka có sự lựa chọn giữa ba mô hình hàng đầu, và cả ba đều có thể truy cập thông qua giao diện tương thích OpenAI duy nhất JoinGonka Gateway. Bảng so sánh dưới đây giúp hiểu không phải “mô hình nào tốt hơn”, mà là mỗi mô hình được tối ưu hóa cho loại nhiệm vụ nào.

Đặc điểmMiniMax M2.7Qwen3-235BKimi K2.6
Nhà sản xuấtMiniMax (Thượng Hải)Alibaba Cloud (Hàng Châu)Moonshot AI (Bắc Kinh)
Kiến trúcMoE + chú ý tuyến tínhMoE (235B/22B hoạt động)MoE
Ngữ cảnh trong Gonka131.072 token131.072 token131.072 token
Đầu ra tối đa4.096 token8.192 token3.072 token
Điểm mạnh lịch sửNgữ cảnh dài, chú ý hiệu quảĐa ngôn ngữ (119 ngôn ngữ), tool callingLý luận, ngữ cảnh dài
Mã định danh APIMiniMaxAI/MiniMax-M2.7Qwen/Qwen3-235B-A22B-Instruct-2507-FP8moonshotai/Kimi-K2.6
Trạng thái trong mạngRa mắt thông qua nâng cấp v0.2.13 (tháng 5 năm 2026)Ổn định từ tháng 8 năm 2025Ra mắt thông qua DevShards (tháng 5 năm 2026)

Một lưu ý quan trọng về các điểm chuẩn trong năm 2026: khoảng cách giữa các mô hình open-weights hàng đầu trong các bài kiểm tra công khai đã giảm xuống còn vài phần trăm, và sự khác biệt này thường nằm trong phạm vi sai số thống kê của chính các điểm chuẩn. Đối với công việc thực tế, điều quan trọng không phải là vị trí tuyệt đối trong bảng xếp hạng MMLU, mà là bản chất của nhiệm vụ: độ dài ngữ cảnh, độ phức tạp của chuỗi logic, ngôn ngữ cần thiết, sự hiện diện của tool calling.

Hướng dẫn thực tế: đối với các tác vụ có tài liệu rất dài và xử lý hàng loạt lượng lớn văn bản, MiniMax M2.7 có ý nghĩa để thử nghiệm – chú ý hiệu quả của dòng sản phẩm này theo truyền thống được điều chỉnh cho các kịch bản như vậy. Đối với công việc đa ngôn ngữ phổ quát và tool calling ổn định trong sản xuất, một lựa chọn đã được chứng minh là Qwen3-235B. Đối với các tác vụ lý luận với logic phức tạp – Kimi K2.6. Chiến lược tốt nhất trong sản xuất là giữ cả ba mô hình trong mã và chuyển đổi giữa chúng bằng một tham số model mà không thay đổi kiến trúc ứng dụng.

Làm thế nào Gonka đã khởi chạy mô hình thứ ba: nâng cấp v0.2.13

Việc thêm MiniMax M2.7 không phải là “tải tệp lên máy chủ” mà là kết quả của một bản nâng cấp mạng đã được thông qua thông qua bỏ phiếu trên chuỗi. Hỗ trợ mô hình này đã được đưa vào bản phát hành giao thức v0.2.13, được phê duyệt theo đề xuất #54: nó đã được chấp nhận vào ngày 21 tháng 5 năm 2026 (khoảng 63% phiếu thuận) và được kích hoạt ở một độ cao khối nhất định. Đây là cùng một cơ chế quản trị mà mạng sử dụng để chấp nhận bất kỳ thay đổi quan trọng nào — từ biểu phí đến các mô hình mới.

Đa mô hình cho một mạng phi tập trung là một bước đi cơ bản. Một mạng bị ràng buộc với một mô hình duy nhất về cơ bản rất mong manh: việc phát hành một phiên bản mô hình mới trở thành khủng hoảng di chuyển, và bất kỳ sự cố nào của mô hình duy nhất sẽ làm sập toàn bộ dịch vụ. Một mạng có khả năng giữ nhiều mô hình cùng lúc phát triển một cách nhẹ nhàng: các mô hình mới được thêm vào như những “làn đường” bổ sung, các mô hình cũ tiếp tục hoạt động, và các máy chủ GPU có lựa chọn để phục vụ. Về mặt kỹ thuật, mỗi mô hình tồn tại trong shard riêng của mạng — cơ chế này (DevShards) trước đây đã được sử dụng để khởi chạy Kimi K2.6.

Một điểm đặc biệt trong giai đoạn đầu: có thể có một khoảng thời gian trễ giữa “mô hình xuất hiện trong danh sách mạng” và “mô hình được mở cho tất cả khách hàng”. Ban đầu, suy luận MiniMax M2.7 ở chế độ broker chỉ khả dụng cho các khóa đặc quyền và trả về lỗi cho các yêu cầu thông thường — một giai đoạn thử nghiệm bình thường. Đến cuối tháng 5 năm 2026, quyền truy cập công khai đã được mở, và mô hình này đã có sẵn cho tất cả khách hàng Gateway. Để biết thêm chi tiết về cách mạng hoạt động và tại sao các mô hình được khởi chạy theo cách này, hãy đọc bài viết về kiến trúc mạng Gonka.

Cùng một MiniMax M2.7 thông qua OpenRouter — $0.279/$1.20 cho 1M, so với $0.001 của JoinGonka.

Cách sử dụng MiniMax M2.7 qua JoinGonka Gateway

Cách trực tiếp nhất là thông qua JoinGonka API Gateway. Vì Gateway cung cấp API tương thích OpenAI, cùng một mã hoạt động với GPT, Claude, Qwen hoặc Kimi, sẽ bắt đầu hoạt động với MiniMax sau khi thay đổi giá trị của trường model.

Ví dụ tối thiểu thông qua curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Giải thích ngắn gọn linear attention là gì"}
    ]
  }'

Cùng một yêu cầu bằng Python thông qua thư viện openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Chào MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) – cho các giao diện tương tác, nơi phản hồi được hiển thị khi được tạo:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Viết một bài luận ngắn về ngữ cảnh dài"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Khi đăng ký JoinGonka Gateway, bạn sẽ nhận được miễn phí 10 triệu token để thử nghiệm bất kỳ mô hình nào trong mạng – đủ để so sánh cả ba mô hình trên các tác vụ của riêng bạn.

Khả năng tương thích với các công cụ phát triển: mọi thứ hoạt động với OpenAI API đều hoạt động với MiniMax thông qua Gateway. Chỉ cần thay đổi tham số model:

Danh sách các mô hình hiện tại luôn có sẵn tại endpoint GET /v1/models – từ đó bạn có thể dễ dàng kéo nó động để giao diện người dùng ứng dụng của bạn tự hiển thị một bộ cập nhật. Nếu bạn nhận được 429 too many concurrent requests trong phản hồi – đây là giai đoạn bình thường cho một mô hình mới ở giai đoạn đầu phát triển mạng: hãy thử lại yêu cầu sau vài giây.

Khi nào nên chọn MiniMax M2.7 — các kịch bản thực tế

Sự hiện diện của ba mô hình trong một mạng có giá trị vì bạn có thể chọn các công cụ khác nhau cho các tác vụ khác nhau mà không cần thay đổi nhà cung cấp hoặc mã tích hợp. Đây là các kịch bản mà bạn nên bắt đầu thử nghiệm với MiniMax M2.7.

Phân tích tài liệu dài. Nếu nhiệm vụ là tóm tắt hợp đồng, phân tích tài liệu kỹ thuật, xử lý các văn bản pháp lý hoặc tài chính lớn, sự chú ý hiệu quả của loạt M theo truyền thống được điều chỉnh để giữ ngữ cảnh dài mà không làm tăng chi phí đột ngột. Truyền toàn bộ tài liệu trong một yêu cầu và yêu cầu mô hình làm việc với toàn bộ khối lượng cùng một lúc, chứ không phải từng phần.

RAG và làm việc với các cơ sở tri thức. Trong các kịch bản truy xuất tăng cường, nơi hàng chục đoạn trích từ cơ sở dữ liệu vector được trộn vào ngữ cảnh, khả năng của mô hình để giữ nhiều đoạn văn bản không đồng nhất ảnh hưởng trực tiếp đến chất lượng phản hồi. Đây là một vị trí thích hợp tự nhiên cho các mô hình có ngữ cảnh dài.

Xử lý bản ghi và nhật ký. Giải mã cuộc gọi, hội thoại hỗ trợ dài, nhật ký luồng – là những tác vụ có khối lượng đầu vào lớn, nhưng phản hồi thường ngắn. Ở đây, giới hạn đầu ra 4.096 token không gây trở ngại: nhiều đầu vào, tóm tắt hoặc các sự kiện được trích xuất ở đầu ra.

Khi nào nên chọn một mô hình khác. Nếu ứng dụng của bạn cần một phản hồi rất dài trong một yêu cầu (một tài liệu được tạo lớn, một đoạn mã dài), hãy nhớ về giới hạn đầu ra 4.096 token – Qwen3-235B có giới hạn gấp đôi (8.192). Nếu tool calling gốc ổn định trong sản xuất đóng vai trò quan trọng – Qwen3-235B đã được chứng minh lâu hơn. Đối với các tác vụ lý luận với logic đa bước phức tạp, bạn nên so sánh các phản hồi với Kimi K2.6. Lời khuyên chung: chạy cùng một tập hợp các yêu cầu thực tế của bạn qua cả ba mô hình và so sánh kết quả – 10 triệu token miễn phí khi đăng ký sẽ đủ cho một thử nghiệm so sánh đầy đủ.

Về mặt kỹ thuật, việc chuyển đổi giữa các mô hình là thay đổi một dòng trong trường model. Do đó, một kiến trúc ứng dụng được thiết kế tốt trên mạng Gonka không “chọn một mô hình mãi mãi”, mà cho phép định tuyến các yêu cầu giữa Qwen, Kimi và MiniMax tùy thuộc vào loại tác vụ – inferenced giá rẻ làm cho việc định tuyến như vậy có lợi về mặt kinh tế.

MiniMax M2.7 — mô hình MoE của phòng thí nghiệm MiniMax Thượng Hải, trở thành mô hình thứ ba của mạng Gonka sau Qwen3-235B và Kimi K2.6. Hỗ trợ đã được đưa vào nâng cấp giao thức v0.2.13 (đề xuất #54, tháng 5 năm 2026); đến cuối tháng 5, inferenced công khai đã được mở cho tất cả mọi người. Trong mạng Gonka, mô hình hoạt động với ngữ cảnh 131.072 token và giới hạn đầu ra 4.096 token trên một node với ~320 GB VRAM. Thông qua JoinGonka Gateway, nó có sẵn thông qua API tương thích OpenAI; mã định danh mô hình là MiniMaxAI/MiniMax-M2.7. Loạt M theo truyền thống mạnh mẽ về chú ý hiệu quả và ngữ cảnh dài.

Muốn tìm hiểu thêm?

Khám phá các phần khác hoặc bắt đầu kiếm GNK ngay bây giờ.

Thử MiniMax M2.7 qua Gateway →