Qwen3-235B: Model yang Ditambang Gonka

Jaringan Gonka tidak hanya menyewakan GPU — tetapi juga melayani model AI untuk inferensi. Untuk waktu yang lama, ini adalah satu-satunya model Qwen3-235B-A22B-Instruct, yang dikembangkan oleh Alibaba Cloud, dan pada Mei 2026, Kimi K2.6 dari Moonshot AI bergabung dengannya. Mari kita bahas apa model ini, mengapa Gonka memilihnya, dan bagaimana cara mencobanya melalui API Gateway kami.

Apa itu Qwen3-235B

Qwen3-235B-A22B-Instruct-2507-FP8 — adalah model bahasa besar (LLM) dari keluarga Qwen3, yang dikembangkan oleh tim Qwen di Alibaba Cloud. Nama lengkapnya diuraikan sebagai berikut: Qwen3 — generasi ketiga dari seri, 235B — 235 miliar parameter secara total, A22B — 22 miliar parameter aktif per permintaan, Instruct — versi yang dilatih untuk mengikuti instruksi, 2507 — rilis Juli 2025, FP8 — kuantisasi 8-bit untuk optimasi memori.

Fitur arsitektur utama adalah MoE (Mixture of Experts). Tidak seperti model "padat" (GPT-5.4, Claude Sonnet 4.5), di mana setiap token melewati semua parameter, model MoE hanya mengaktifkan subset "ahli" — blok jaringan saraf khusus — untuk setiap permintaan. Dalam kasus Qwen3-235B, dari 235 miliar parameter, hanya 22 miliar yang diaktifkan per token — kurang dari 10%. Ini memberikan kualitas tingkat model dengan 200B+ parameter dengan biaya komputasi model pada 22B.

Secara praktis, ini berarti: model lebih pintar daripada yang mungkin diharapkan dari kecepatannya. Ia memproses permintaan secara signifikan lebih cepat daripada model padat dengan kualitas yang sebanding, sementara membutuhkan VRAM yang jauh lebih sedikit untuk inferensi. Inilah mengapa MoE telah menjadi arsitektur dominan untuk model terbesar tahun 2025-2026.

Jendela konteks Qwen3-235B adalah 131.072 token (~100.000 kata) — ini cukup untuk menganalisis seluruh buku, basis kode, atau dokumen hukum yang panjang dalam satu permintaan. Model ini mendukung 119 bahasa, termasuk Rusia, Inggris, Mandarin, Arab, Hindi, dan puluhan lainnya — menjadikannya salah satu model multibahasa paling unggul di pasar.

Karakteristik dan Benchmark

Qwen3-235B bersaing dengan model tertutup dan terbuka terbesar. Berikut adalah perbandingan karakteristik utama:

Model	Parameter	Konteks	MoE	Sumber Terbuka	Harga (per 1 Juta token)
Qwen3-235B (melalui JoinGonka)	235B (22B aktif)	131K	Ya	Ya (Apache 2.0)	$0,001
GPT-5.4 (OpenAI)	~1.8T (perkiraan)	128K	Ya (diasumsikan)	Tidak	$2,50
Claude Sonnet 4.5 (Anthropic)	Tidak diungkapkan	200K	Tidak (diasumsikan)	Tidak	$3,00
Llama 4 Maverick (Meta)	400B (17B aktif)	1M	Ya	Ya (Lisensi Llama)	$0,20+ (hosting)
DeepSeek-R1 (DeepSeek)	671B (37B aktif)	128K	Ya	Ya (MIT)	$0,55

Qwen3-235B menunjukkan tingkat kualitas yang sebanding dengan GPT-5.4 dan Claude Sonnet 4.5 pada sebagian besar benchmark, sementara biayanya melalui JoinGonka Gateway 2.500 kali lebih rendah daripada GPT-5.4. Ini dimungkinkan oleh dua faktor: arsitektur MoE mengurangi biaya komputasi, dan jaringan Gonka yang terdesentralisasi menghilangkan margin pusat data.

Pada benchmark MMLU-Pro, HumanEval, MATH-500, dan GSM8K, model ini termasuk dalam tiga model open-source terbaik, hanya kalah dari DeepSeek-R1 dalam tugas-tugas penalaran matematika (reasoning). Dalam tugas-tugas pembuatan kode, terjemahan, dan mengikuti instruksi, Qwen3-235B secara konsisten mengungguli Llama 4 Maverick dan sebanding dengan Claude Sonnet 4.5.

Bagaimana Gonka Menggunakan Qwen3-235B

Model Qwen3-235B beroperasi di jaringan Gonka secara terdistribusi — melalui protokol DiLoCo, yang diadaptasi untuk inferensi. Model lengkap dalam format FP8 membutuhkan sekitar 640 GB memori video (VRAM), yang tidak dapat dimuat dalam satu GPU — bahkan H100 80GB atau H200 141GB tidak cukup. Oleh karena itu, model dibagi berdasarkan lapisan (paralelisme tensor + paralelisme pipeline) antara beberapa ML-node.

Secara praktis, Qwen3-235B berjalan pada klaster yang terdiri dari 8–16 node GPU, masing-masing dengan minimal 40 GB VRAM. Transfer Agents merute permintaan ke klaster yang sesuai, vLLM pada setiap node memproses fragmen modelnya, hasilnya digabungkan dan dikembalikan kepada pengguna. Seluruh proses memakan waktu ratusan milidetik — pengguna tidak merasakan bahwa permintaannya diproses oleh puluhan GPU di berbagai titik di planet ini.

Detail teknis penting: Gonka menggunakan vLLM sebagai mesin untuk melayani. vLLM adalah proyek sumber terbuka yang menyediakan pembuatan teks berkinerja tinggi melalui PagedAttention — algoritma yang mengoptimalkan penggunaan memori video saat memproses banyak permintaan secara paralel. Ini memungkinkan jaringan untuk melayani ribuan pengguna secara bersamaan tanpa degradasi kualitas.

Model ini mendukung pemanggilan alat asli — memanggil fungsi dan alat langsung dari respons model. Fitur ini ditambahkan ke Gonka melalui PR #767 dengan ambang batas 0,958 untuk menentukan panggilan alat. Ini berarti pengembang dapat membangun agen AI yang berinteraksi dengan API eksternal, database, dan alat — semuanya melalui satu permintaan ke Qwen3-235B.

Jaringan Gonka saat ini memiliki lebih dari 4.000 GPU (H100, H200, A100, RTX 4090, dan lainnya), yang digabungkan dalam 120+ ML-node. Ini adalah salah satu jaringan GPU terdistribusi terbesar untuk inferensi AI di dunia — dan semua daya ini diarahkan untuk melayani Qwen3-235B.

Cara Mencoba Qwen3-235B

Cara termudah untuk mencoba Qwen3-235B adalah melalui JoinGonka API Gateway. Gateway menyediakan API yang kompatibel dengan OpenAI, yang berarti: kode apa pun yang ditulis untuk OpenAI berfungsi dengan Qwen3-235B tanpa perubahan — cukup ganti URL dan kunci API.

Contoh permintaan:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "Jelaskan arsitektur MoE"}]
  }'

Biaya: $0,001 per 1 juta token — ini 2.500 kali lebih murah dari GPT-5.4 ($2,50/1 Juta) dan 3.000 kali lebih murah dari Claude Sonnet 4.5 ($3,00/1 Juta). Setelah mendaftar, Anda akan mendapatkan 10 juta token gratis untuk pengujian.

Gateway kompatibel dengan alat pengembangan populer: Mulai Cepat menjelaskan koneksi melalui Python, Node.js, dan curl. Integrasi IDE juga didukung — Cursor, Continue, Cline, Aider, dan Claude Code — serta kerangka kerja untuk agen AI: LangChain, n8n, LibreChat, Open WebUI.

Untuk memulai dengan cepat:

Daftar di gate.joingonka.ai (hubungkan dompet atau buat yang baru)
Dapatkan kunci API di Dashboard
Ganti api.openai.com dengan gate.joingonka.ai/api di kode Anda
Gunakan model qwen3-235b-a22b

Qwen3-235B melalui JoinGonka adalah AI tingkat perusahaan dengan harga proyek hobi.

Qwen3-235B-A22B adalah model MoE dengan 235 miliar parameter dari Alibaba Cloud, yang digunakan oleh jaringan Gonka untuk inferensi AI terdesentralisasi. Berkat arsitektur MoE, ia memberikan kualitas tingkat GPT-5.4 dengan biaya 2.500 kali lebih rendah. Melalui JoinGonka Gateway, model ini tersedia melalui API yang kompatibel dengan OpenAI seharga $0,001/1 Juta token.

← Memilih GPU untuk Gonka: Rekomendasi Perangkat Keras Kimi K2.6: Model kedua jaringan Gonka →

Ingin tahu lebih banyak?

Jelajahi bagian lain atau mulai hasilkan GNK sekarang.

Coba Qwen3-235B →