Các phần cơ sở kiến thức ▾

Công cụ

Công nghệ

MiniMax M2.7: Mô hình thứ ba của mạng Gonka

Vào mùa xuân năm 2026, mạng Gonka đã chuyển đổi từ mô hình đơn sang đa mô hình. Đầu tiên, Qwen3-235B hàng đầu đã được bổ sung bởi Kimi K2.6, và vào cuối tháng 5 năm 2026 – mô hình thứ ba, MiniMax M2.7, từ phòng thí nghiệm MiniMax của Trung Quốc. Đây là lần đầu tiên trong lịch sử mạng lưới ba mô hình ngôn ngữ lớn độc lập được phục vụ cùng một lúc.

Chúng ta hãy xem xét MiniMax M2.7 là gì, ai đứng sau sự phát triển của nó, các đặc điểm của nó trong mạng Gonka, nó khác với hai mô hình đã hoạt động như thế nào và cách truy cập nó thông qua API Gateway của chúng tôi bằng giao thức tương thích OpenAI.

MiniMax M2.7 là gì và ai đứng sau mô hình này

MiniMax M2.7 là một mô hình ngôn ngữ lớn (LLM) từ công ty MiniMax, có trụ sở tại Thượng Hải. MiniMax được thành lập vào năm 2021 bởi một nhóm các nhà nghiên cứu do Yan Junjie (trước đây làm việc tại SenseTime) đứng đầu và nhanh chóng trở thành một trong những phòng thí nghiệm AI hàng đầu của Trung Quốc. Công ty đã thu hút tài trợ từ Alibaba, Tencent và HongShan – đây là cùng một nhóm các nhà đầu tư chiến lược đứng sau các “con hổ AI của Trung Quốc” khác, bao gồm Moonshot AI, nhà phát triển của Kimi K2.6.

Ngoài các mô hình ngôn ngữ thuần túy, MiniMax còn nổi tiếng với các sản phẩm tiêu dùng: trợ lý trò chuyện Talkie và Hailuo, cũng như một trong những trình tạo video đáng chú ý nhất trong ngành. Nhưng đối với mạng Gonka, dòng mô hình văn bản M series – kế thừa từ các mô hình abab trước đó – là quan trọng nhất.

Đặc điểm kiến trúc chính của M series là tập trung vào cơ chế chú ý hiệu quả. Nếu các mô hình lớn ban đầu sử dụng chú ý bậc hai cổ điển (chi phí tính toán tăng tỷ lệ bình phương với độ dài ngữ cảnh), thì MiniMax là một trong những công ty đầu tiên đưa chú ý tuyến tính lai vào công khai. Điều này cho phép xử lý các chuỗi rất dài mà không làm tăng chi phí tính toán đáng kể – đây là đặc điểm nổi bật trong lịch sử của dòng sản phẩm này. Giống như Qwen3-235B và Kimi K2.6, mô hình này được xây dựng trên kiến trúc MoE (Mixture of Experts): hàng trăm tỷ tham số “trên giấy”, nhưng chỉ một phần nhỏ trong số chúng được kích hoạt cho mỗi yêu cầu, điều này làm giảm đáng kể chi phí inferenced.

Trong mạng Gonka, mô hình được xác định là MiniMaxAI/MiniMax-M2.7 – đây chính là chuỗi cần được truyền vào trường model của yêu cầu API. Phiên bản M2.7 là phiên bản lặp cuối cùng của M series tại thời điểm xuất bản bài viết.

Đặc điểm của MiniMax M2.7 trong mạng Gonka

Điều quan trọng là phải phân biệt các đặc điểm của chính mô hình “ngoài hộp” và các đặc điểm mà nó được triển khai trong một mạng cụ thể. Khi mô hình hoạt động trong mạng Gonka phi tập trung, các tham số hoạt động của nó được thiết lập bởi cấu hình inferenced vLLM trên các máy chủ GPU, chứ không chỉ kiến trúc mô hình. Dưới đây là các giá trị thực tế mà Gateway của chúng tôi trả về:

  • Cửa sổ ngữ cảnh: 131.072 token (khoảng 100.000 từ). Đây là cấu hình mạng con trong mạng Gonka. Kiến trúc MiniMax tự nó hỗ trợ ngữ cảnh dài hơn đáng kể, nhưng giới hạn thực tế tại mỗi thời điểm được đặt bởi cài đặt inferenced trên máy chủ.
  • Đầu ra tối đa: 4.096 token cho một câu trả lời. Con số này được đo lường một cách thực nghiệm – bằng một yêu cầu với việc tạo ra một chuỗi dài bắt buộc, đã đạt giới hạn (finish_reason: length). Để so sánh, giới hạn này của Qwen3-235B là 8.192, của Kimi K2.6 là 3.072 token. Đây không phải là giới hạn của chính mô hình, mà là cấu hình của mạng con vLLM.
  • Yêu cầu VRAM của máy chủ: khoảng 320 GB VRAM trên mỗi nút. Đây là yêu cầu điển hình cho một mô hình MoE lớn trong FP8 quantisation – 320 GB tương tự được yêu cầu cho Qwen3-235B và Kimi K2.6. Trên thực tế, điều này có nghĩa là một số GPU hạng H100/H200 được kết hợp trong một nút.

Giá inferenced trong mạng Gonka không phụ thuộc vào việc lựa chọn mô hình và được xác định bởi các tham số mạng: thông qua JoinGonka Gateway, MiniMax M2.7 có sẵn với mức giá tương tự như Gonka và Kimi. Giá thống nhất là hệ quả của việc mạng lưới dựa trên một tính toán chi phí duy nhất cho công việc tính toán, chứ không phải giá của một nhà cung cấp cụ thể.

MiniMax M2.7, Qwen3-235B và Kimi K2.6 – so sánh ba mô hình Gonka

Lần đầu tiên, người dùng mạng Gonka có sự lựa chọn giữa ba mô hình hàng đầu, và cả ba đều có thể truy cập thông qua giao diện OpenAI tương thích JoinGonka Gateway. So sánh dưới đây giúp hiểu không phải “cái nào tốt hơn”, mà là mỗi cái được tối ưu hóa cho loại nhiệm vụ nào.

Đặc điểmMiniMax M2.7Qwen3-235BKimi K2.6
Nhà sản xuấtMiniMax (Thượng Hải)Alibaba Cloud (Hàng Châu)Moonshot AI (Bắc Kinh)
Kiến trúcMoE + chú ý tuyến tínhMoE (235B/22B hoạt động)MoE
Ngữ cảnh trong Gonka131.072 token131.072 token131.072 token
Đầu ra tối đa4.096 token8.192 token3.072 token
Điểm mạnh lịch sửNgữ cảnh dài, chú ý hiệu quảĐa ngôn ngữ (119 ngôn ngữ), gọi công cụLập luận, ngữ cảnh dài
Mã định danh APIMiniMaxAI/MiniMax-M2.7Qwen/Qwen3-235B-A22B-Instruct-2507-FP8moonshotai/Kimi-K2.6
Trạng thái trong mạngRa mắt thông qua nâng cấp v0.2.13 (tháng 5 năm 2026)Ổn định từ tháng 8 năm 2025Ra mắt thông qua DevShards (tháng 5 năm 2026)

Một lời cảnh báo quan trọng về các điểm chuẩn vào năm 2026: khoảng cách giữa các mô hình open-weights hàng đầu trong các bài kiểm tra công khai đã giảm xuống còn vài phần trăm, và sự khác biệt này thường nằm trong giới hạn sai số thống kê của chính các điểm chuẩn. Đối với công việc thực tế, điều quan trọng không phải là vị trí tuyệt đối trong bảng xếp hạng MMLU, mà là bản chất của nhiệm vụ: độ dài ngữ cảnh, độ phức tạp của chuỗi logic, ngôn ngữ cần thiết, sự hiện diện của việc gọi công cụ.

Hướng dẫn thực tế: đối với các nhiệm vụ với tài liệu rất dài và xử lý dòng văn bản lớn, có ý nghĩa để kiểm tra MiniMax M2.7 – chú ý hiệu quả của dòng sản phẩm này trong lịch sử được điều chỉnh cho các kịch bản như vậy. Đối với công việc đa ngôn ngữ phổ quát và gọi công cụ ổn định trong sản xuất, Qwen3-235B là một lựa chọn đã được chứng minh. Đối với các nhiệm vụ lập luận với logic phức tạp – Kimi K2.6. Chiến lược tốt nhất trong sản xuất là giữ cả ba mô hình trong mã và chuyển đổi giữa chúng bằng một tham số model duy nhất mà không thay đổi kiến trúc ứng dụng.

Làm thế nào Gonka đã ra mắt mô hình thứ ba: nâng cấp v0.2.13

Việc bổ sung MiniMax M2.7 không phải là “tải file lên máy chủ”, mà là kết quả của một nâng cấp mạng đã trải qua quá trình bỏ phiếu on-chain. Hỗ trợ cho mô hình đã được đưa vào bản phát hành giao thức v0.2.13, được phê duyệt bởi đề xuất #54: nó đã được chấp nhận vào ngày 21 tháng 5 năm 2026 (khoảng 63% phiếu “có”) và được kích hoạt ở một chiều cao khối đã định. Đây là cùng một cơ chế quản trị mà mạng sử dụng để chấp nhận bất kỳ thay đổi quan trọng nào – từ mức giá đến các mô hình mới.

Đa mô hình cho một mạng phi tập trung là một bước đi mang tính nguyên tắc. Một mạng gắn liền với một mô hình duy nhất về cơ bản rất mong manh: việc phát hành một phiên bản mới của mô hình biến thành một cuộc khủng hoảng di chuyển, và bất kỳ thất bại nào của mô hình duy nhất sẽ làm sập toàn bộ dịch vụ. Một mạng có khả năng giữ nhiều mô hình cùng lúc sẽ phát triển một cách nhẹ nhàng: các mô hình mới được thêm vào như những “đường ray” bổ sung, các mô hình cũ tiếp tục hoạt động và các máy chủ GPU có quyền lựa chọn để phục vụ. Về mặt kỹ thuật, mỗi mô hình sống trong một shard riêng của mạng – cơ chế tương tự (DevShards) trước đây đã được sử dụng để ra mắt Kimi K2.6.

Một điểm đặc biệt của giai đoạn đầu: có thể có độ trễ giữa “mô hình xuất hiện trong danh sách mạng” và “mô hình được mở cho tất cả khách hàng”. Ban đầu, inference MiniMax M2.7 trong chế độ broker chỉ khả dụng cho các khóa có đặc quyền và trả về lỗi cho các yêu cầu thông thường – một giai đoạn kiểm tra bình thường. Đến cuối tháng 5 năm 2026, quyền truy cập công khai đã được mở và mô hình trở nên khả dụng cho tất cả các khách hàng Gateway. Thông tin chi tiết hơn về cách mạng hoạt động và lý do tại sao các mô hình được ra mắt theo cách này – trong bài viết về kiến trúc mạng Gonka.

Cách sử dụng MiniMax M2.7 qua JoinGonka Gateway

Con đường trực tiếp nhất là thông qua JoinGonka API Gateway. Vì Gateway cung cấp API tương thích OpenAI, cùng một mã hoạt động với GPT, Claude, Qwen hoặc Kimi, sẽ bắt đầu hoạt động với MiniMax sau khi thay đổi giá trị của trường model.

Ví dụ tối thiểu qua curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Giải thích ngắn gọn cơ chế chú ý tuyến tính là gì"}
    ]
  }'

Cùng một yêu cầu bằng Python thông qua thư viện openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Chào MiniMax"}],
)
print(response.choices[0].message.content)

Truyền trực tuyến (Server-Sent Events) – cho các giao diện tương tác, nơi câu trả lời được hiển thị khi được tạo:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Viết một bài luận ngắn về ngữ cảnh dài"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Khi đăng ký vào JoinGonka Gateway, bạn sẽ nhận được 10 triệu token miễn phí để kiểm tra bất kỳ mô hình nào của mạng – điều này đủ để so sánh cả ba mô hình trên các tác vụ của riêng bạn.

Khả năng tương thích với các công cụ phát triển: mọi thứ hoạt động với OpenAI API đều hoạt động với MiniMax thông qua Gateway. Chỉ cần thay đổi tham số model:

Danh sách các mô hình hiện tại luôn có sẵn trong điểm cuối GET /v1/models – bạn có thể dễ dàng kéo nó động từ đó để giao diện người dùng ứng dụng của bạn tự hiển thị bộ mới nhất. Nếu phản hồi là 429 too many concurrent requests – đây là giai đoạn bình thường cho một mô hình mới trong giai đoạn đầu tăng trưởng của mạng: hãy thử lại yêu cầu sau vài giây.

Khi nào nên chọn MiniMax M2.7 – các kịch bản thực tế

Việc có ba mô hình trong một mạng lưới là rất có giá trị vì bạn có thể chọn một công cụ khác nhau cho các nhiệm vụ khác nhau mà không cần thay đổi nhà cung cấp hoặc mã tích hợp. Dưới đây là các kịch bản mà bạn nên bắt đầu thử nghiệm với MiniMax M2.7.

Phân tích tài liệu dài. Nếu nhiệm vụ là tóm tắt hợp đồng, phân tích tài liệu kỹ thuật, xử lý các văn bản pháp lý hoặc tài chính lớn, mô hình M series với cơ chế chú ý hiệu quả của nó được thiết kế để duy trì ngữ cảnh dài mà không làm tăng đáng kể chi phí. Hãy gửi toàn bộ tài liệu trong một yêu cầu và yêu cầu mô hình xử lý toàn bộ khối lượng cùng một lúc, thay vì từng phần.

RAG và làm việc với cơ sở kiến thức. Trong các kịch bản truy xuất tăng cường, nơi hàng chục đoạn trích từ cơ sở dữ liệu vector được trộn vào ngữ cảnh, khả năng của mô hình duy trì nhiều đoạn văn bản không đồng nhất ảnh hưởng trực tiếp đến chất lượng phản hồi. Đây là một thị trường ngách tự nhiên cho các mô hình có ngữ cảnh dài.

Xử lý bản ghi và nhật ký. Các bản ghi cuộc gọi, các cuộc đối thoại hỗ trợ dài, nhật ký luồng – đây là những nhiệm vụ mà khối lượng đầu vào lớn, nhưng phản hồi thường ngắn. Ở đây, giới hạn đầu ra 4.096 token không gây cản trở: đầu vào lớn, đầu ra là bản tóm tắt hoặc các sự kiện được trích xuất.

Khi nào nên chọn một mô hình khác. Nếu ứng dụng của bạn cần một phản hồi rất dài cho một yêu cầu (một tài liệu được tạo lớn, một đoạn mã dài), hãy nhớ về giới hạn đầu ra 4.096 token – Qwen3-235B có giới hạn gấp đôi (8.192). Nếu việc gọi công cụ gốc ổn định trong sản xuất đóng vai trò quan trọng – Qwen3-235B vẫn được thử nghiệm lâu hơn. Đối với các nhiệm vụ lập luận phức tạp, nhiều bước, bạn nên so sánh các phản hồi với Kimi K2.6. Lời khuyên chung: chạy cùng một tập hợp các yêu cầu thực tế của bạn thông qua cả ba mô hình và so sánh kết quả – 10 triệu token miễn phí khi đăng ký sẽ đủ cho một bài kiểm tra so sánh đầy đủ.

Về mặt kỹ thuật, việc chuyển đổi giữa các mô hình là thay đổi một dòng trong trường model. Do đó, kiến trúc ứng dụng được thiết kế tốt trên mạng Gonka không “chọn một mô hình mãi mãi”, mà cho phép định tuyến các yêu cầu giữa Qwen, Kimi và MiniMax tùy thuộc vào loại nhiệm vụ – inference rẻ làm cho việc định tuyến này có hiệu quả kinh tế.

MiniMax M2.7 – mô hình MoE của phòng thí nghiệm MiniMax Thượng Hải, trở thành mô hình thứ ba của mạng Gonka sau Qwen3-235B và Kimi K2.6. Hỗ trợ được đưa vào nâng cấp giao thức v0.2.13 (đề xuất #54, tháng 5 năm 2026); đến cuối tháng 5, inference công khai đã được mở cho tất cả. Trong mạng Gonka, mô hình hoạt động với ngữ cảnh 131.072 token và giới hạn đầu ra 4.096 token trên mỗi nút với ~320 GB VRAM. Thông qua JoinGonka Gateway, nó có thể truy cập qua API tương thích OpenAI; mã định danh mô hình là MiniMaxAI/MiniMax-M2.7. Dòng M trong lịch sử mạnh về cơ chế chú ý hiệu quả và ngữ cảnh dài.

Muốn tìm hiểu thêm?

Khám phá các phần khác hoặc bắt đầu kiếm GNK ngay bây giờ.

Thử MiniMax M2.7 qua Gateway →