Bagian Basis Pengetahuan ▾

Alat

Teknologi

MiniMax M2.7: model ketiga jaringan Gonka

Pada musim semi 2026, jaringan Gonka beralih dari model tunggal menjadi multi-model. Pertama, Kimi K2.6 ditambahkan ke unggulan Qwen3-235B, dan pada akhir Mei 2026 — model ketiga, MiniMax M2.7 dari laboratorium MiniMax Tiongkok. Ini adalah momen pertama dalam sejarah jaringan ketika ia melayani tiga model bahasa besar independen secara bersamaan.

Mari kita bahas apa itu MiniMax M2.7, siapa di balik pengembangannya, apa karakteristiknya dalam jaringan Gonka, bagaimana perbedaannya dengan dua model yang sudah beroperasi, dan bagaimana mengaksesnya melalui API Gateway kami menggunakan protokol yang kompatibel dengan OpenAI.

Apa itu MiniMax M2.7 dan siapa di balik model ini

MiniMax M2.7 adalah model bahasa besar (LLM) dari perusahaan MiniMax, yang berbasis di Shanghai. MiniMax didirikan pada tahun 2021 oleh tim peneliti yang dipimpin oleh Yan Junjie (sebelumnya bekerja di SenseTime) dan dengan cepat menjadi salah satu laboratorium AI terkemuka di Tiongkok. Perusahaan ini mendapatkan pendanaan dari Alibaba, Tencent, dan HongShan — lingkaran investor strategis yang sama yang berada di belakang 'harimau AI Tiongkok' lainnya, termasuk Moonshot AI, pengembang Kimi K2.6.

Di luar model bahasa murni, MiniMax dikenal dengan produk konsumen: asisten obrolan Talkie dan Hailuo, serta salah satu generator video paling menonjol di industri. Namun untuk jaringan Gonka, lini model teks seri M — penerus model abab sebelumnya — adalah yang paling penting.

Fitur arsitektur utama dari seri M adalah fokus pada mekanisme perhatian yang efisien. Jika model besar awal menggunakan perhatian kuadratik klasik (biaya komputasi tumbuh sebanding dengan kuadrat panjang konteks), MiniMax adalah salah satu yang pertama kali merilis perhatian linear hibrida secara publik. Ini memungkinkan pemrosesan urutan yang sangat panjang tanpa peningkatan biaya komputasi yang eksplosif — ciri khas historis dari lini ini. Seperti Qwen3-235B dan Kimi K2.6, model ini dibangun di atas arsitektur MoE (Mixture of Experts): ratusan miliar parameter 'di atas kertas', tetapi hanya sebagian kecil dari mereka yang diaktifkan untuk setiap kueri, yang secara radikal mengurangi biaya inference.

Dalam jaringan Gonka, model diidentifikasi sebagai MiniMaxAI/MiniMax-M2.7 — inilah string yang harus diteruskan di bidang model permintaan API. Versi M2.7 adalah iterasi terbaru dari seri M pada saat publikasi artikel ini.

Karakteristik MiniMax M2.7 di jaringan Gonka

Penting untuk membedakan karakteristik model "out of the box" dan karakteristik dengan mana ia digunakan dalam jaringan tertentu. Ketika model beroperasi di jaringan Gonka yang terdesentralisasi, parameter kerjanya ditentukan oleh konfigurasi vLLM-inference di sisi host GPU, dan tidak hanya oleh arsitektur model. Berikut adalah nilai aktual yang dikembalikan oleh Gateway kami:

  • Jendela Konteks: 131.072 token (sekitar 100.000 kata). Ini adalah konfigurasi subnet di jaringan Gonka. Arsitektur MiniMax sendiri mendukung konteks yang jauh lebih panjang, tetapi batas praktis setiap saat ditentukan oleh pengaturan inference pada host.
  • Output Maksimal: 4.096 token per satu respons. Angka ini diukur secara empiris — dengan permintaan dengan generasi panjang paksa, yang mencapai batas (finish_reason: length). Sebagai perbandingan, untuk Qwen3-235B, batas ini adalah 8.192, untuk Kimi K2.6 — 3.072 token. Ini bukan batas model itu sendiri, melainkan konfigurasi subnet vLLM.
  • Persyaratan VRAM Host: sekitar 320 GB VRAM per node. Ini adalah persyaratan tipikal untuk model MoE besar dalam kuantisasi FP8 — 320 GB yang sama diperlukan untuk Qwen3-235B dan Kimi K2.6. Dalam praktiknya, ini berarti beberapa GPU kelas H100/H200, digabungkan menjadi satu node.

Harga inference di jaringan Gonka tidak tergantung pada pilihan model dan ditentukan oleh parameter jaringan: melalui JoinGonka Gateway, MiniMax M2.7 tersedia dengan tarif yang sama dengan Qwen dan Kimi. Harga yang disatukan adalah konsekuensi dari fakta bahwa jaringan didasarkan pada perhitungan biaya tunggal untuk pekerjaan komputasi, dan bukan harga dari vendor tertentu.

MiniMax M2.7, Qwen3-235B, dan Kimi K2.6 — perbandingan tiga model Gonka

Untuk pertama kalinya, pengguna jaringan Gonka memiliki pilihan dari tiga model unggulan, dan ketiganya tersedia melalui antarmuka tunggal yang kompatibel dengan OpenAI: JoinGonka Gateway. Perbandingan di bawah ini membantu memahami bukan “mana yang lebih baik,” melainkan untuk profil tugas apa masing-masing dioptimalkan.

KarakteristikMiniMax M2.7Qwen3-235BKimi K2.6
ProdusenMiniMax (Shanghai)Alibaba Cloud (Hangzhou)Moonshot AI (Beijing)
ArsitekturMoE + perhatian linearMoE (235B/22B aktif)MoE
Konteks di Gonka131 072 token131 072 token131 072 token
Max. output4 096 token8 192 token3 072 token
Kekuatan HistorisKonteks panjang, perhatian efisienMultibahasa (119 bahasa), tool callingPenalaran, konteks panjang
ID APIMiniMaxAI/MiniMax-M2.7Qwen/Qwen3-235B-A22B-Instruct-2507-FP8moonshotai/Kimi-K2.6
Status di jaringanDiluncurkan melalui upgrade v0.2.13 (Mei 2026)Stabil sejak Agustus 2025Diluncurkan melalui DevShards (Mei 2026)

Peringatan penting tentang tolok ukur di tahun 2026: kesenjangan antara model open-weights teratas dalam tes publik telah menyusut menjadi beberapa persen, dan perbedaan ini seringkali berada dalam batas kesalahan statistik dari tolok ukur itu sendiri. Untuk pekerjaan praktis, nilai bukan pada peringkat absolut di MMLU, tetapi pada sifat tugas: panjang konteks, kompleksitas rantai logis, bahasa yang dibutuhkan, keberadaan tool calling.

Orientasi praktis: untuk tugas-tugas dengan dokumen yang sangat panjang dan pemrosesan teks bervolume besar secara streaming, disarankan untuk menguji MiniMax M2.7 — perhatian efisien dari seri ini secara historis dirancang untuk skenario semacam itu. Untuk pekerjaan multibahasa universal dan tool calling yang stabil dalam produksi, Qwen3-235B adalah pilihan yang terbukti. Untuk tugas-tugas penalaran dengan logika yang kompleks — Kimi K2.6. Strategi terbaik dalam produksi adalah menjaga ketiga model dalam kode dan beralih di antara mereka dengan satu parameter model tanpa mengubah arsitektur aplikasi.

Bagaimana Gonka meluncurkan model ketiga: upgrade v0.2.13

Penambahan MiniMax M2.7 bukanlah “mengunggah file ke server,” melainkan hasil dari pembaruan jaringan yang terjadi melalui pemungutan suara on-chain. Dukungan model ini termasuk dalam rilis protokol v0.2.13, yang disetujui oleh proposal #54: diterima pada 21 Mei 2026 (sekitar 63% suara “mendukung”) dan diaktifkan pada ketinggian blok yang ditentukan. Ini adalah mekanisme governance yang sama di mana jaringan menerima setiap perubahan signifikan — mulai dari tarif hingga model baru.

Multimodelling untuk jaringan terdesentralisasi adalah langkah yang krusial. Jaringan yang terikat pada satu model secara fundamental rapuh: rilis versi model baru berubah menjadi krisis migrasi, dan setiap kegagalan model tunggal akan menjatuhkan seluruh layanan. Jaringan yang mampu menampung beberapa model secara bersamaan akan berevolusi dengan lebih lancar: model baru ditambahkan sebagai “jalur” tambahan, model lama terus beroperasi, dan host GPU mendapatkan pilihan untuk melayani apa. Secara teknis, setiap model berada dalam shard jaringannya sendiri — mekanisme yang sama (DevShards) sebelumnya digunakan untuk meluncurkan Kimi K2.6.

Nuansa terpisah dari tahap awal: mungkin ada jeda antara “model muncul di daftar jaringan” dan “model terbuka untuk semua klien”. Awalnya, inferensi MiniMax M2.7 dalam mode broker hanya tersedia untuk kunci istimewa dan mengembalikan kesalahan untuk permintaan biasa — fase pengujian normal. Pada akhir Mei 2026, akses publik dibuka, dan model ini menjadi tersedia untuk semua klien Gateway. Untuk detail lebih lanjut tentang cara kerja jaringan dan mengapa model diluncurkan dengan cara ini, lihat artikel tentang arsitektur jaringan Gonka.

Cara menggunakan MiniMax M2.7 melalui JoinGonka Gateway

Cara paling langsung adalah melalui JoinGonka API Gateway. Karena Gateway menyediakan API yang kompatibel dengan OpenAI, kode yang sama yang bekerja dengan GPT, Claude, Qwen, atau Kimi akan mulai bekerja dengan MiniMax setelah nilai bidang model diubah.

Contoh minimal melalui curl:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMaxAI/MiniMax-M2.7",
    "messages": [
      {"role": "user", "content": "Jelaskan secara singkat apa itu perhatian linear"}
    ]
  }'

Permintaan yang sama di Python melalui pustaka openai:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Halo, MiniMax"}],
)
print(response.choices[0].message.content)

Streaming (Server-Sent Events) — untuk antarmuka interaktif, di mana respons ditampilkan saat generasi berlangsung:

stream = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "Tulis esai singkat tentang konteks panjang"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Saat mendaftar di JoinGonka Gateway, Anda akan menerima 10 juta token gratis untuk menguji model jaringan apa pun — ini akan cukup untuk membandingkan ketiga model tersebut pada tugas Anda sendiri.

Kompatibilitas dengan alat pengembangan: semua yang berfungsi dengan OpenAI API juga berfungsi dengan MiniMax melalui Gateway. Cukup ubah parameter model:

Daftar model terkini selalu tersedia di titik akhir GET /v1/models — sangat mudah untuk menariknya secara dinamis sehingga UI aplikasi Anda sendiri menampilkan kumpulan terbaru. Jika responsnya adalah 429 too many concurrent requests — ini adalah fase normal untuk model baru pada tahap awal pertumbuhan jaringan: coba lagi setelah beberapa detik.

Kapan memilih MiniMax M2.7 — skenario praktis

Keberadaan tiga model dalam satu jaringan sangat berharga karena memungkinkan pemilihan alat yang berbeda untuk tugas yang berbeda, tanpa mengubah penyedia atau kode integrasi. Berikut adalah skenario di mana Anda sebaiknya mulai menguji dengan MiniMax M2.7.

Analisis dokumen panjang. Jika tugasnya adalah meringkas kontrak, menganalisis dokumentasi teknis, memproses teks hukum atau keuangan yang besar, perhatian efisien dari seri M secara historis dirancang untuk mempertahankan konteks panjang tanpa peningkatan biaya yang tajam. Kirimkan seluruh dokumen dalam satu permintaan dan minta model untuk bekerja dengan seluruh volume sekaligus, bukan per bagian.

RAG dan bekerja dengan basis pengetahuan. Dalam skenario yang ditingkatkan retrieval, di mana puluhan fragmen dari basis vektor disisipkan ke dalam konteks, kemampuan model untuk mempertahankan banyak bagian teks yang beragam secara langsung memengaruhi kualitas respons. Ini adalah ceruk alami untuk model dengan konteks panjang.

Memproses transkrip dan log. Transkrip panggilan, dialog dukungan yang panjang, log yang mengalir — tugas-tugas di mana volume input besar, dan responsnya biasanya pendek. Di sini, batas output 4.096 token tidak mengganggu: banyak informasi masuk, dan ringkasan atau fakta yang diekstraksi keluar.

Kapan memilih model lain. Jika aplikasi Anda membutuhkan respons yang sangat panjang dalam satu permintaan (dokumen yang dibuat besar, potongan kode besar), ingatlah batas output 4.096 token — untuk Qwen3-235B, itu dua kali lebih tinggi (8.192). Jika panggilan alat (tool calling) asli yang stabil dalam produksi memainkan peran kunci — Qwen3-235B terbukti lebih lama. Untuk tugas-tugas penalaran dengan logika kompleks, disarankan untuk membandingkan respons dengan Kimi K2.6. Saran umum: jalankan set permintaan aktual Anda melalui ketiga model dan bandingkan hasilnya — 10 juta token gratis saat pendaftaran akan cukup untuk tes perbandingan lengkap.

Secara teknis, perpindahan antar model adalah perubahan satu baris pada kolom model. Oleh karena itu, arsitektur aplikasi yang cerdas pada jaringan Gonka tidak “memilih model secara permanen,” melainkan memungkinkan perutean permintaan antara Qwen, Kimi, dan MiniMax tergantung pada jenis tugas — inference yang murah membuat perutean semacam itu menguntungkan secara ekonomis.

MiniMax M2.7 — model MoE dari laboratorium Shanghai MiniMax, menjadi model ketiga jaringan Gonka setelah Qwen3-235B dan Kimi K2.6. Dukungan dimasukkan dalam peningkatan protokol v0.2.13 (proposal #54, Mei 2026); pada akhir Mei, inferensi publik dibuka untuk semua. Dalam jaringan Gonka, model beroperasi dengan konteks 131.072 token dan batas output 4.096 token per node dengan ~320 GB VRAM. Melalui JoinGonka Gateway, ia dapat diakses melalui API yang kompatibel dengan OpenAI; pengidentifikasi modelnya adalah MiniMaxAI/MiniMax-M2.7. Seri M secara historis kuat dalam perhatian yang efisien dan konteks yang panjang.

Ingin tahu lebih banyak?

Jelajahi bagian lain atau mulai hasilkan GNK sekarang.

Coba MiniMax M2.7 melalui Gateway →