MiniMax M2.7: model jaringan Gonka

Pada musim semi 2026, jaringan Gonka berubah dari single-model menjadi multi-model. Awalnya, setelah Qwen3-235B sebagai model andalan, ditambahkanlah Kimi K2.6, dan pada akhir Mei 2026 — MiniMax M2.7 dari laboratorium China MiniMax. Kemudian Qwen3-235B dihapus dari jaringan, dan sekarang Gonka melayani dua model secara bersamaan — Kimi K2.6 dan MiniMax M2.7.

Mari kita bahas apa itu MiniMax M2.7, siapa di balik pengembangannya, karakteristik apa yang dimilikinya di jaringan Gonka, apa bedanya dengan model aktif kedua jaringan — Kimi K2.6 — dan bagaimana mengaksesnya melalui API Gateway kami dengan protokol yang kompatibel dengan OpenAI.

Apa itu MiniMax M2.7 dan siapa di balik model ini

MiniMax M2.7 adalah model bahasa besar (LLM) dari perusahaan MiniMax, yang berbasis di Shanghai. MiniMax didirikan pada tahun 2021 oleh tim peneliti yang dipimpin oleh Yan Junjie (sebelumnya bekerja di SenseTime) dan dengan cepat menjadi salah satu lab AI terkemuka di Tiongkok. Perusahaan telah menarik pendanaan dari Alibaba, Tencent, dan HongShan – lingkaran investor strategis yang sama yang mendukung “macan AI Tiongkok” lainnya, termasuk Moonshot AI, pengembang Kimi K2.6.

Di luar model bahasa murni, MiniMax dikenal dengan produk konsumennya: asisten chat Talkie dan Hailuo, serta salah satu generator video paling menonjol di industri. Namun untuk jaringan Gonka, seri model teks dari seri M — penerus model abab sebelumnya — yang penting.

Ciri arsitektur utama dari seri M adalah fokus pada mekanisme perhatian yang efisien. Jika model besar awal menggunakan perhatian kuadrat klasik (biaya komputasi meningkat secara proporsional dengan kuadrat panjang konteks), MiniMax adalah salah satu yang pertama meluncurkan perhatian linier hibrida ke publik. Ini memungkinkan pemrosesan urutan yang sangat panjang tanpa peningkatan biaya komputasi yang meledak — kartu nama historis dari lini ini. Seperti Qwen3-235B dengan Kimi K2.6, model ini dibangun di atas arsitektur MoE (Mixture of Experts): ratusan miliar parameter “di atas kertas”, tetapi hanya sebagian kecil darinya yang diaktifkan untuk setiap permintaan, yang secara radikal mengurangi biaya inference.

Dalam jaringan Gonka, model diidentifikasi sebagai MiniMaxAI/MiniMax-M2.7 — inilah string yang perlu diteruskan di bidang model dari permintaan API. Versi M2.7 adalah iterasi terbaru dari seri M pada saat artikel ini diterbitkan.

Karakteristik MiniMax M2.7 di jaringan Gonka

Penting untuk membedakan karakteristik model "apa adanya" (out-of-the-box) dengan karakteristik saat model tersebut disebarkan dalam jaringan tertentu. Ketika model beroperasi di jaringan terdesentralisasi Gonka, parameter kerjanya ditentukan oleh konfigurasi vLLM-inferenced di sisi host GPU, bukan hanya oleh arsitektur model. Berikut adalah nilai aktual yang diberikan oleh Gateway kami:

Jendela konteks: 200.000 token (sekitar 150.000 kata). Ini adalah konfigurasi subnet di jaringan Gonka. Arsitektur MiniMax sendiri mendukung konteks yang jauh lebih panjang, namun batas praktis setiap saat ditentukan oleh pengaturan inferenced pada host.
Output maksimal: 8.192 token per respons. Angka ini diukur secara empiris — melalui permintaan dengan pembuatan teks panjang paksa yang mencapai batas (finish_reason: length). Saat ini, batas ini sama untuk semua model di jaringan — hingga 8.192 token. Ini bukan batasan dari model itu sendiri, melainkan konfigurasi subnet vLLM.
Kebutuhan VRAM host: sekitar 320 GB VRAM per node. Ini adalah kebutuhan tipikal untuk model MoE besar dalam kuantisasi FP8 — 320 GB yang sama juga diperlukan untuk Kimi K2.6. Dalam praktiknya, ini berarti beberapa GPU kelas H100/H200 yang digabungkan menjadi satu node.

Harga inferenced di jaringan Gonka tidak bergantung pada pilihan model dan ditentukan oleh parameter jaringan: melalui JoinGonka Gateway, MiniMax M2.7 tersedia dengan tarif yang sama seperti Kimi K2.6. Harga yang terpadu ini adalah konsekuensi dari jaringan yang didasarkan pada perhitungan biaya tunggal untuk pekerjaan komputasi, bukan berdasar daftar harga vendor tertentu.

MiniMax M2.7 dan Kimi K2.6 — perbandingan model Gonka

Pengguna jaringan Gonka memiliki pilihan antara dua model unggulan, dan keduanya dapat diakses melalui antarmuka tunggal yang kompatibel dengan OpenAI, JoinGonka Gateway. Perbandingan di bawah ini membantu memahami bukan tentang "mana yang lebih baik", melainkan untuk profil tugas seperti apa masing-masing model dioptimalkan.

Karakteristik	MiniMax M2.7	Kimi K2.6
Produsen	MiniMax (Shanghai)	Moonshot AI (Beijing)
Arsitektur	MoE + perhatian linear	MoE
Konteks di Gonka	200.000 token	200.000 token
Output maks.	8.192 token	8.192 token
Kekuatan historis	Konteks panjang, perhatian efisien	Reasoning, konteks panjang
Identitas API	`MiniMaxAI/MiniMax-M2.7`	`moonshotai/Kimi-K2.6`
Status di jaringan	Diluncurkan melalui upgrade v0.2.13 (Mei 2026)	Diluncurkan melalui DevShards (Mei 2026)

Catatan penting mengenai benchmark pada tahun 2026: kesenjangan antara model open-weights teratas dalam pengujian publik telah menyusut ke angka persentase tunggal, dan perbedaan ini sering kali berada dalam margin kesalahan statistik dari benchmark itu sendiri. Untuk kebutuhan praktis, yang penting bukanlah posisi absolut dalam peringkat MMLU, melainkan sifat tugasnya: panjang konteks, kompleksitas rantai logika, bahasa yang diperlukan, serta keberadaan tool calling.

Panduan praktis: untuk tugas dengan dokumen yang sangat panjang dan pemrosesan streaming volume teks yang besar, disarankan untuk menguji MiniMax M2.7 — perhatian efisien dari serinya secara historis memang dirancang untuk skenario tersebut. Untuk tugas reasoning dengan logika kompleks dan konteks panjang, ada baiknya membandingkan responsnya dengan Kimi K2.6. Strategi terbaik dalam produksi adalah menyimpan kedua model dalam kode dan beralih di antara keduanya menggunakan parameter model tanpa mengubah arsitektur aplikasi.

Bagaimana Gonka meluncurkan MiniMax M2.7: upgrade v0.2.13

Penambahan MiniMax M2.7 bukanlah « unggah file ke server », melainkan hasil dari peningkatan jaringan yang dilakukan melalui pemungutan suara on-chain. Dukungan model tersebut disertakan dalam rilis protokol v0.2.13, yang disetujui melalui proposal #54: proposal ini diterima pada 21 Mei 2026 (sekitar 63% suara setuju) dan diaktifkan pada ketinggian blok yang ditentukan. Ini adalah mekanisme governance yang sama yang digunakan jaringan untuk menyetujui perubahan signifikan apa pun — mulai dari tarif hingga model baru.

Multimodalitas untuk jaringan terdesentralisasi adalah langkah yang sangat penting. Jaringan yang terikat pada satu model secara fundamental sangat rapuh: peluncuran versi model baru akan berubah menjadi krisis migrasi, dan malfungsi model tunggal akan menjatuhkan seluruh layanan. Jaringan yang mampu menjalankan beberapa model secara bersamaan akan berkembang dengan lebih fleksibel: model baru ditambahkan sebagai "jalur" tambahan, model lama tetap berjalan, dan GPU-hosts dapat memilih apa yang ingin mereka layani. Secara teknis, setiap model berada di shard jaringan masing-masing — mekanisme yang sama (DevShards) sebelumnya digunakan untuk menjalankan Kimi K2.6.

Satu detail penting di tahap awal: mungkin ada jeda antara « model muncul di daftar jaringan » dan « model terbuka untuk semua klien ». Awalnya, inferensi MiniMax M2.7 dalam mode broker hanya tersedia untuk kunci istimewa dan memberikan error untuk permintaan biasa — fase pengujian yang normal. Menjelang akhir Mei 2026, akses publik dibuka, dan model tersebut menjadi tersedia bagi semua klien Gateway. Detail lebih lanjut tentang cara kerja jaringan dan alasan model diluncurkan dengan cara seperti ini ada dalam artikel tentang arsitektur jaringan Gonka.

MiniMax M2.7 yang sama melalui OpenRouter berharga $0.279/$1.20 per 1M, dibandingkan dengan $0.003/$0.009 di JoinGonka.

Cara menggunakan MiniMax M2.7 melalui JoinGonka Gateway

Cara paling langsung adalah melalui JoinGonka API Gateway. Karena Gateway menyediakan API yang kompatibel dengan OpenAI, kode yang sama yang berfungsi dengan GPT, Claude, atau Kimi akan berfungsi dengan MiniMax setelah mengubah nilai bidang model.

Contoh minimal melalui curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Jelaskan secara singkat apa itu linear attention"}
    ]
  }'

Permintaan yang sama dalam Python melalui pustaka openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Halo, MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) — untuk antarmuka interaktif di mana respons ditampilkan saat sedang dibuat:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Tulis esai singkat tentang konteks panjang"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Saat melakukan registrasi di JoinGonka Gateway, Anda mendapatkan 10 juta token gratis untuk menguji model apa pun di jaringan — ini cukup untuk membandingkan kedua model jaringan tersebut pada tugas Anda sendiri.

Kompatibilitas dengan alat pengembangan: semua yang berfungsi dengan OpenAI API juga berfungsi dengan MiniMax melalui Gateway. Cukup ubah parameter model:

Cursor: di pengaturan Custom Model, tentukan MiniMaxAI/MiniMax-M2.7
Claude Code, Cline, Continue.dev: nama model dalam konfigurasi
LangChain, n8n: parameter model saat inisialisasi client

Daftar model terbaru selalu tersedia di endpoint GET /v1/models — sangat mudah untuk menariknya secara dinamis agar UI aplikasi Anda selalu menampilkan rangkaian terbaru. Jika respons yang masuk adalah 429 too many concurrent requests — itu adalah fase normal untuk model baru pada tahap awal pertumbuhan jaringan: ulangi permintaan setelah beberapa detik.

Kapan memilih MiniMax M2.7 — skenario praktis

Memiliki dua model dalam satu jaringan sangat berharga karena untuk tugas yang berbeda, Anda dapat memilih alat yang berbeda tanpa mengubah penyedia atau kode integrasi. Berikut adalah skenario di mana masuk akal untuk memulai pengujian dengan MiniMax M2.7.

Analisis dokumen panjang. Jika tugasnya adalah meringkas kontrak, menganalisis dokumentasi teknis, atau memproses teks hukum atau keuangan yang besar, attention seri M yang efisien secara historis dirancang untuk mempertahankan konteks panjang tanpa kenaikan biaya yang tajam. Kirim seluruh dokumen dalam satu permintaan dan minta model untuk mengerjakan seluruh volume sekaligus, bukan per bagian.

RAG dan basis pengetahuan. Dalam skenario retrieval-augmented, di mana puluhan fragmen dari basis vektor dimasukkan ke dalam konteks, kemampuan model untuk menampung banyak potongan teks heterogen secara langsung memengaruhi kualitas respons. Ini adalah ceruk alami bagi model dengan konteks panjang.

Memproses transkrip dan log. Transkrip panggilan, dialog dukungan yang panjang, log streaming — adalah tugas di mana volume input besar, tetapi respons biasanya singkat. Di sini, batas output 8.192 token tidak mengganggu: input yang masuk banyak, sedangkan output berupa ringkasan atau fakta yang diekstraksi.

Kapan sebaiknya memilih model lain. Saat ini, semua model dalam jaringan memberikan hingga 8.192 token dalam satu respons, jadi jika aplikasi memerlukan respons yang sangat panjang dalam satu permintaan (dokumen yang dibuat besar, potongan kode yang bervolume) — pertimbangkan batas total ini dalam arsitektur dan bagi generasi menjadi beberapa bagian. Untuk tugas dengan penalaran langkah-demi-langkah yang rumit, bandingkan respons dengan Kimi K2.6. Saran universal: jalankan kumpulan permintaan nyata Anda yang sama melalui kedua model dan bandingkan hasilnya — 10 juta token gratis saat pendaftaran sudah cukup untuk tes perbandingan yang lengkap.

Secara teknis, berpindah antar model berarti mengubah satu baris dalam bidang model. Oleh karena itu, arsitektur aplikasi yang dirancang dengan baik di jaringan Gonka tidak "memilih model selamanya", melainkan memungkinkan perutean permintaan antara Kimi K2.6 dan MiniMax M2.7 tergantung pada jenis tugas — inference yang murah membuat perutean tersebut menguntungkan secara ekonomi.

MiniMax M2.7 adalah model MoE dari laboratorium MiniMax Shanghai, yang ditambahkan ke jaringan Gonka pada Mei 2026 bersama dengan Kimi K2.6 (dukungan disertakan dalam peningkatan protokol v0.2.13, proposal #54); pada akhir Mei, inference publik dibuka untuk semua orang. Di jaringan Gonka, model ini bekerja dengan konteks 200.000 token dan batas output 8.192 token per node dengan ~320 GB VRAM. Melalui JoinGonka Gateway, model ini tersedia melalui API yang kompatibel dengan OpenAI; identifier model adalah MiniMaxAI/MiniMax-M2.7. Seri M secara historis unggul dalam attention yang efisien dan konteks yang panjang.

← Kimi K2.6: Model kedua jaringan Gonka

Ingin tahu lebih banyak?

Jelajahi bagian lain atau mulai hasilkan GNK sekarang.

Coba MiniMax M2.7 melalui Gateway →