Bagian Basis Pengetahuan ▾

Alat

Teknologi

MiniMax M2.7: Model ketiga jaringan Gonka

Pada musim semi 2026, jaringan Gonka berubah dari model tunggal menjadi multi-model. Awalnya, Kimi K2.6 ditambahkan ke produk unggulan Qwen3-235B, dan pada akhir Mei 2026, model ketiga, MiniMax M2.7 dari lab Tiongkok MiniMax, ditambahkan. Ini adalah momen pertama dalam sejarah jaringan di mana ia melayani tiga model bahasa besar independen secara bersamaan.

Mari kita bahas apa itu MiniMax M2.7, siapa di balik pengembangannya, apa karakteristiknya khususnya di jaringan Gonka, bagaimana perbedaannya dari dua model yang sudah berjalan, dan bagaimana cara mengaksesnya melalui API Gateway kami menggunakan protokol yang kompatibel dengan OpenAI.

Apa itu MiniMax M2.7 dan siapa di balik model ini

MiniMax M2.7 adalah model bahasa besar (LLM) dari perusahaan MiniMax, yang berbasis di Shanghai. MiniMax didirikan pada tahun 2021 oleh tim peneliti yang dipimpin oleh Yan Junjie (sebelumnya bekerja di SenseTime) dan dengan cepat menjadi salah satu lab AI terkemuka di Tiongkok. Perusahaan telah menarik pendanaan dari Alibaba, Tencent, dan HongShan – lingkaran investor strategis yang sama yang mendukung “macan AI Tiongkok” lainnya, termasuk Moonshot AI, pengembang Kimi K2.6.

Di luar model bahasa murni, MiniMax dikenal dengan produk konsumennya: asisten chat Talkie dan Hailuo, serta salah satu generator video paling menonjol di industri. Namun untuk jaringan Gonka, seri model teks dari seri M — penerus model abab sebelumnya — yang penting.

Ciri arsitektur utama dari seri M adalah fokus pada mekanisme perhatian yang efisien. Jika model besar awal menggunakan perhatian kuadrat klasik (biaya komputasi meningkat secara proporsional dengan kuadrat panjang konteks), MiniMax adalah salah satu yang pertama meluncurkan perhatian linier hibrida ke publik. Ini memungkinkan pemrosesan urutan yang sangat panjang tanpa peningkatan biaya komputasi yang meledak — kartu nama historis dari lini ini. Seperti Qwen3-235B dengan Kimi K2.6, model ini dibangun di atas arsitektur MoE (Mixture of Experts): ratusan miliar parameter “di atas kertas”, tetapi hanya sebagian kecil darinya yang diaktifkan untuk setiap permintaan, yang secara radikal mengurangi biaya inference.

Dalam jaringan Gonka, model diidentifikasi sebagai MiniMaxAI/MiniMax-M2.7 — inilah string yang perlu diteruskan di bidang model dari permintaan API. Versi M2.7 adalah iterasi terbaru dari seri M pada saat artikel ini diterbitkan.

Karakteristik MiniMax M2.7 di jaringan Gonka

Penting untuk membedakan karakteristik model “keluar dari kotak” itu sendiri dengan karakteristik di mana ia diterapkan dalam jaringan tertentu. Ketika model beroperasi dalam jaringan Gonka yang terdesentralisasi, parameter kerjanya ditentukan oleh konfigurasi inferensi vLLM di sisi host GPU, dan bukan hanya arsitektur model. Berikut adalah nilai-nilai aktual yang dikembalikan oleh Gateway kami:

  • Jendela konteks: 131.072 token (sekitar 100.000 kata). Ini adalah konfigurasi subnet di jaringan Gonka. Arsitektur MiniMax sendiri mendukung konteks yang jauh lebih panjang, tetapi batas praktis pada setiap saat ditentukan oleh pengaturan inferensi pada host.
  • Output maksimum: 4.096 token per respons. Angka ini diukur secara empiris — dengan permintaan dengan generasi panjang paksa yang mencapai batas (finish_reason: length). Sebagai perbandingan, untuk Qwen3-235B batas ini adalah 8.192, untuk Kimi K2.6 – 3.072 token. Ini bukan batas model itu sendiri, melainkan konfigurasi subnet vLLM.
  • Persyaratan VRAM host: sekitar 320 GB VRAM per node. Ini adalah persyaratan tipikal untuk model MoE besar dalam kuantisasi FP8 — 320 GB yang sama diperlukan untuk Qwen3-235B dan Kimi K2.6. Dalam praktiknya, ini berarti beberapa GPU kelas H100/H200, digabungkan menjadi satu node.

Harga inferensi di jaringan Gonka tidak tergantung pada pilihan model dan ditentukan oleh parameter jaringan: melalui JoinGonka Gateway, MiniMax M2.7 tersedia dengan tarif yang sama dengan Qwen dan Kimi. Harga yang disatukan adalah konsekuensi dari fakta bahwa jaringan didasarkan pada perhitungan biaya tunggal untuk pekerjaan komputasi, dan bukan harga vendor tertentu.

MiniMax M2.7, Qwen3-235B dan Kimi K2.6 — perbandingan tiga model Gonka

Untuk pertama kalinya, pengguna jaringan Gonka memiliki pilihan dari tiga model unggulan, dan ketiganya dapat diakses melalui antarmuka tunggal JoinGonka Gateway yang kompatibel dengan OpenAI. Perbandingan di bawah ini membantu memahami bukan “mana yang lebih baik,” melainkan untuk profil tugas apa masing-masing dioptimalkan.

KarakteristikMiniMax M2.7Qwen3-235BKimi K2.6
ProdusenMiniMax (Shanghai)Alibaba Cloud (Hangzhou)Moonshot AI (Beijing)
ArsitekturMoE + perhatian linierMoE (235B/22B aktif)MoE
Konteks di Gonka131.072 token131.072 token131.072 token
Output maks.4.096 token8.192 token3.072 token
Kekuatan HistorisKonteks panjang, perhatian efisienMultibahasa (119 bahasa), tool callingPena’aran, konteks panjang
ID APIMiniMaxAI/MiniMax-M2.7Qwen/Qwen3-235B-A22B-Instruct-2507-FP8moonshotai/Kimi-K2.6
Status dalam jaringanDiluncurkan melalui pembaruan v0.2.13 (Mei 2026)Stabil sejak Agustus 2025Diluncurkan melalui DevShards (Mei 2026)

Peringatan penting tentang benchmark di tahun 2026: celah antara model open-weights teratas dalam tes publik telah menyusut hingga beberapa persen, dan perbedaan ini seringkali berada dalam batas kesalahan statistik benchmark itu sendiri. Untuk pekerjaan praktis, yang penting bukanlah posisi absolut di peringkat MMLU, melainkan sifat tugas: panjang konteks, kompleksitas rantai logis, bahasa yang dibutuhkan, ketersediaan tool calling.

Orientasi praktis: untuk tugas-tugas dengan dokumen yang sangat panjang dan pemrosesan stream teks dalam volume besar, MiniMax M2.7 perlu diuji — perhatian efisien dari serinya secara historis disesuaikan untuk skenario tersebut. Untuk pekerjaan multibahasa universal dan tool calling yang stabil dalam produksi, Qwen3-235B adalah pilihan yang teruji. Untuk tugas penalaran dengan logika kompleks — Kimi K2.6. Strategi terbaik dalam produksi adalah menyimpan ketiga model dalam kode dan beralih antar mereka dengan satu parameter model tanpa mengubah arsitektur aplikasi.

Bagaimana Gonka meluncurkan model ketiga: upgrade v0.2.13

Penambahan MiniMax M2.7 — bukan 'mengunggah file ke server', melainkan hasil peningkatan jaringan yang melewati pemungutan suara on-chain. Dukungan model termasuk dalam rilis protokol v0.2.13, yang disetujui oleh proposal #54: diterima pada 21 Mei 2026 (sekitar 63% suara 'setuju') dan diaktifkan pada ketinggian blok yang ditentukan. Ini adalah mekanisme pemerintahan yang sama di mana jaringan menerima perubahan signifikan apa pun — dari tarif hingga model baru.

Multimodalitas untuk jaringan terdesentralisasi adalah langkah fundamental. Jaringan yang terikat pada satu model secara fundamental rapuh: rilis versi model baru menjadi krisis migrasi, dan setiap kegagalan model tunggal menghancurkan seluruh layanan. Jaringan yang mampu menampung beberapa model secara bersamaan berkembang dengan mulus: model baru ditambahkan sebagai 'jalur' tambahan, yang lama terus berfungsi, dan host GPU mendapatkan pilihan untuk melayani. Secara teknis, setiap model berada di shard jaringannya sendiri — mekanisme yang sama (DevShards) sebelumnya digunakan untuk meluncurkan Kimi K2.6.

Nuansa terpisah dari tahap awal: mungkin ada jeda antara 'model muncul di daftar jaringan' dan 'model terbuka untuk semua klien'. Awalnya, inferensi MiniMax M2.7 dalam mode broker hanya tersedia untuk kunci istimewa dan mengembalikan kesalahan untuk permintaan biasa — fase pengujian normal. Pada akhir Mei 2026, akses publik dibuka, dan model tersedia untuk semua klien Gateway. Lebih lanjut tentang bagaimana jaringan beroperasi dan mengapa model diluncurkan dengan cara ini — dalam artikel tentang arsitektur jaringan Gonka.

MiniMax M2.7 yang sama melalui OpenRouter — $0.279/$1.20 per 1M, dibandingkan $0.001 di JoinGonka.

Cara menggunakan MiniMax M2.7 melalui JoinGonka Gateway

Cara paling langsung adalah melalui JoinGonka API Gateway. Karena Gateway menyediakan API yang kompatibel dengan OpenAI, kode yang sama yang berfungsi dengan GPT, Claude, Qwen, atau Kimi akan mulai berfungsi dengan MiniMax setelah mengubah nilai bidang model.

Contoh minimal melalui curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Jelaskan secara singkat apa itu perhatian linier"}
    ]
  }'

Permintaan yang sama di Python melalui pustaka openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Halo, MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) — untuk antarmuka interaktif di mana jawaban ditampilkan saat dihasilkan:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Tulis esai singkat tentang konteks panjang"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Ketika mendaftar di JoinGonka Gateway, Anda akan menerima 10 juta token gratis untuk menguji model apa pun di jaringan – ini cukup untuk membandingkan ketiga model pada tugas Anda sendiri.

Kompatibilitas dengan alat pengembangan: semua yang berfungsi dengan OpenAI API juga berfungsi dengan MiniMax melalui Gateway. Cukup ubah parameter model:

Daftar model terkini selalu tersedia di endpoint GET /v1/models — dari sana mudah untuk menariknya secara dinamis agar UI aplikasi Anda sendiri menampilkan kumpulan terbaru. Jika responsnya adalah 429 too many concurrent requests — fase normal untuk model baru pada tahap awal pertumbuhan jaringan: ulangi permintaan setelah beberapa detik.

Kapan memilih MiniMax M2.7 — skenario praktis

Ketersediaan tiga model dalam satu jaringan sangat berharga karena untuk tugas yang berbeda, alat yang berbeda dapat dipilih, tanpa mengubah penyedia atau kode integrasi. Berikut adalah skenario di mana masuk akal untuk memulai pengujian dengan MiniMax M2.7.

Analisis dokumen panjang. Jika tugasnya adalah meringkas kontrak, menganalisis dokumentasi teknis, memproses teks hukum atau keuangan yang besar, perhatian yang efisien dari seri M secara historis dirancang untuk mempertahankan konteks panjang tanpa peningkatan biaya yang tajam. Kirim seluruh dokumen dalam satu permintaan dan minta model untuk bekerja dengan seluruh volume sekaligus, bukan per bagian.

RAG dan bekerja dengan basis pengetahuan. Dalam skenario yang ditingkatkan pengambilan, di mana puluhan fragmen dari basis vektor dicampur ke dalam konteks, kemampuan model untuk mempertahankan banyak bagian teks yang beragam secara langsung memengaruhi kualitas respons. Ini adalah ceruk alami untuk model dengan konteks panjang.

Memproses transkrip dan log. Transkrip panggilan, dialog dukungan yang panjang, log streaming — tugas di mana volume input besar, dan respons biasanya singkat. Di sini, batas output 4.096 token tidak mengganggu: banyak input yang masuk, dan ringkasan atau fakta yang diekstraksi keluar.

Kapan sebaiknya memilih model lain. Jika aplikasi Anda membutuhkan respons yang sangat panjang untuk satu permintaan (dokumen yang dihasilkan besar, bagian kode yang besar), ingat batas output 4.096 token — pada Qwen3-235B batas ini dua kali lebih tinggi (8.192). Jika panggilan alat natif yang stabil dalam produksi memainkan peran kunci — Qwen3-235B sejauh ini lebih teruji. Untuk tugas-tugas penalaran dengan logika kompleks, sebaiknya bandingkan respons dengan Kimi K2.6. Saran universal: jalankan set permintaan nyata Anda yang sama melalui ketiga model dan bandingkan hasilnya — 10 juta token gratis saat registrasi akan cukup untuk uji perbandingan lengkap.

Secara teknis, perpindahan antar model adalah perubahan satu baris di bidang model. Oleh karena itu, arsitektur aplikasi yang kompeten di jaringan Gonka tidak “memilih model selamanya,” tetapi memungkinkan untuk merutekan permintaan antara Qwen, Kimi, dan MiniMax tergantung pada jenis tugas — inferensi murah membuat perutean tersebut menguntungkan secara ekonomis.

MiniMax M2.7 — model MoE dari lab Shanghai MiniMax, telah menjadi model ketiga jaringan Gonka setelah Qwen3-235B dan Kimi K2.6. Dukungan termasuk dalam upgrade protokol v0.2.13 (proposal #54, Mei 2026); pada akhir Mei, inferensi publik dibuka untuk semua. Dalam jaringan Gonka, model beroperasi dengan konteks 131.072 token dan batas output 4.096 token per node dengan ~320 GB VRAM. Melalui JoinGonka Gateway, model ini dapat diakses melalui API yang kompatibel dengan OpenAI; ID modelnya adalah MiniMaxAI/MiniMax-M2.7. Seri M secara historis kuat dalam perhatian efisien dan konteks panjang.

Ingin tahu lebih banyak?

Jelajahi bagian lain atau mulai hasilkan GNK sekarang.

Coba MiniMax M2.7 melalui Gateway →