Qwen3-235B: وہ ماڈل جسے Gonka مائن کرتا ہے

گونکا نیٹ ورک محض GPU کرایہ پر نہیں دیتا — یہ انفرنس کے لیے AI ماڈلز کو سروس فراہم کرتا ہے۔ کافی عرصے تک، یہ علی بابا کلاؤڈ کا تیار کردہ واحد ماڈل Qwen3-235B-A22B-Instruct تھا، اور مئی 2026 میں Moonshot AI کا Kimi K2.6 اس میں شامل ہو گیا۔ ہم اس ماڈل کا تجزیہ کریں گے، گونکا نے اسے کیوں منتخب کیا، اور اسے ہمارے API گیٹ وے کے ذریعے کیسے آزمایا جا سکتا ہے۔

Qwen3-235B کیا ہے؟

Qwen3-235B-A22B-Instruct-2507-FP8 — یہ Qwen3 خاندان کا ایک بڑا لسانی ماڈل (LLM) ہے، جسے علی بابا کلاؤڈ میں Qwen ٹیم نے تیار کیا ہے۔ مکمل نام کی وضاحت یوں کی گئی ہے: Qwen3 — سیریز کی تیسری نسل، 235B — کل 235 بلین پیرامیٹرز، A22B — ہر درخواست کے لیے 22 بلین فعال پیرامیٹرز، Instruct — ہدایات پر عمل کرنے کے لیے تربیت یافتہ ورژن، 2507 — جولائی 2025 کا ریلیز، FP8 — میموری کی اصلاح کے لیے 8-بٹ کوانٹائزیشن۔

کلیدی آرکیٹیکچرل خصوصیت — MoE (Mixture of Experts) ہے۔ 'کثافی' ماڈلز (GPT-5.4، Claude Sonnet 4.5) کے برعکس، جہاں ہر ٹوکن تمام پیرامیٹرز سے گزرتا ہے، MoE ماڈل ہر درخواست کے لیے 'ماہرین' کے صرف ایک ذیلی سیٹ کو فعال کرتا ہے — نیورل نیٹ ورک کے مخصوص بلاکس۔ Qwen3-235B کے معاملے میں، 235 بلین پیرامیٹرز میں سے ہر ٹوکن کے لیے صرف 22 بلین فعال ہوتے ہیں — 10% سے بھی کم۔ یہ 200B+ پیرامیٹرز والے ماڈلز کی سطح کا معیار فراہم کرتا ہے جبکہ کمپیوٹیشنل لاگت 22B ماڈل کی ہوتی ہے۔

عملی طور پر اس کا مطلب یہ ہے: ماڈل اپنی رفتار سے زیادہ ہوشیار ہے۔ یہ درخواستوں کو یکساں معیار کے کثافی ماڈلز کے مقابلے میں کافی تیزی سے پروسیس کرتا ہے، جبکہ انفرنس کے لیے کئی گنا کم VRAM کی ضرورت ہوتی ہے۔ یہی وجہ ہے کہ MoE 2025-2026 کے سب سے بڑے ماڈلز کے لیے ایک غالب فن تعمیر بن گیا ہے۔

Qwen3-235B کی کنٹیکسٹ ونڈو 131,072 ٹوکنز (~100,000 الفاظ) ہے — یہ پورے کتابوں، کوڈ بیسز یا لمبے قانونی دستاویزات کو ایک ہی درخواست میں تجزیہ کرنے کے لیے کافی ہے۔ ماڈل 119 زبانوں کو سپورٹ کرتا ہے، بشمول روسی، انگریزی، چینی، عربی، ہندی اور درجنوں دیگر — جو اسے مارکیٹ میں سب سے زیادہ کثیر لسانی ماڈلز میں سے ایک بناتا ہے۔

خصوصیات اور بینچ مارکس

Qwen3-235B سب سے بڑے بند اور اوپن ماڈلز کے ساتھ مقابلہ کرتا ہے۔ یہاں اہم خصوصیات کا موازنہ ہے:

ماڈل	پیرامیٹرز	سیاق و سباق	MoE	اوپن سورس	قیمت (فی 1M ٹوکنز)
Qwen3-235B (بذریعہ JoinGonka)	235B (22B فعال)	131K	ہاں	ہاں (Apache 2.0)	$0.001
GPT-5.4 (OpenAI)	~1.8T (اندازہ)	128K	ہاں (قیاس کیا گیا)	نہیں	$2.50
Claude Sonnet 4.5 (Anthropic)	ظاہر نہیں کیا گیا	200K	نہیں (قیاس کیا گیا)	نہیں	$3.00
Llama 4 Maverick (Meta)	400B (17B فعال)	1M	ہاں	ہاں (Llama License)	$0.20+ (ہوسٹنگ)
DeepSeek-R1 (DeepSeek)	671B (37B فعال)	128K	ہاں	ہاں (MIT)	$0.55

Qwen3-235B زیادہ تر بینچ مارکس پر GPT-5.4 اور Claude Sonnet 4.5 کے معیار کی سطح کا مظاہرہ کرتا ہے، جبکہ JoinGonka گیٹ وے کے ذریعے اس کی لاگت GPT-5.4 کے مقابلے میں 2,500 گنا کم ہے۔ یہ دو عوامل کی وجہ سے ممکن ہے: MoE-فن تعمیر کمپیوٹیشنل لاگت کو کم کرتا ہے، اور غیر مرکزی Gonka نیٹ ورک ڈیٹا سینٹرز کے مارجن کو ختم کرتا ہے۔

MMLU-Pro، HumanEval، MATH-500 اور GSM8K بینچ مارکس پر، ماڈل ٹاپ تین اوپن سورس ماڈلز میں شامل ہے، جو ریاضیاتی استدلال (reasoning) کے کاموں میں صرف DeepSeek-R1 سے پیچھے ہے۔ کوڈ جنریشن، ترجمہ اور ہدایات کی پیروی کے کاموں میں Qwen3-235B مستقل طور پر Llama 4 Maverick سے آگے ہے اور Claude Sonnet 4.5 کے برابر ہے۔

گونکا Qwen3-235B کو کیسے استعمال کرتا ہے؟

Qwen3-235B ماڈل گونکا نیٹ ورک میں تقسیم کے ساتھ کام کرتا ہے — DiLoCo پروٹوکول کے ذریعے، جسے انفرنس کے لیے ڈھال لیا گیا ہے۔ FP8 فارمیٹ میں مکمل ماڈل کو تقریباً 640 GB ویڈیو میموری (VRAM) کی ضرورت ہوتی ہے، جو ایک GPU پر فٹ نہیں ہو سکتا — یہاں تک کہ H100 80GB یا H200 141GB بھی کافی نہیں ہے۔ لہذا، ماڈل کئی ML-نوڈس کے درمیان تہوں کے لحاظ سے تقسیم کیا گیا ہے (tensor parallelism + pipeline parallelism)۔

عملی طور پر Qwen3-235B 8-16 GPU-نوڈس کے ایک کلسٹر پر چلتا ہے، ہر ایک کم از کم 40 GB VRAM کے ساتھ۔ ٹرانسفر ایجنٹس درخواست کو مطلوبہ کلسٹر تک پہنچاتے ہیں، ہر نوڈ پر vLLM ماڈل کے اپنے حصے پر کارروائی کرتا ہے، نتائج کو اکٹھا کیا جاتا ہے اور صارف کو واپس کر دیا جاتا ہے۔ یہ سارا عمل سینکڑوں ملی سیکنڈ لیتا ہے — صارف کو محسوس نہیں ہوتا کہ اس کی درخواست کو سیارے کے مختلف مقامات پر موجود درجن بھر GPUs نے پروسیس کیا ہے۔

ایک اہم تکنیکی تفصیل: Gonka، سرونگ کے لیے انجن کے طور پر vLLM کا استعمال کرتا ہے۔ vLLM ایک اوپن سورس پروجیکٹ ہے جو PagedAttention کے ذریعے ہائی پرفارمنس ٹیکسٹ جنریشن فراہم کرتا ہے — ایک الگورتھم جو کئی درخواستوں کی متوازی پروسیسنگ کے دوران ویڈیو میموری کے استعمال کو بہتر بناتا ہے۔ یہ نیٹ ورک کو ہزاروں ہم وقت صارفین کو معیار کی کمی کے بغیر خدمت فراہم کرنے کی اجازت دیتا ہے۔

ماڈل نیٹیو ٹول کالنگ کو سپورٹ کرتا ہے — ماڈل کے جواب سے براہ راست فنکشنز اور ٹولز کو کال کرنا۔ یہ خصوصیت Gonka میں PR #767 کے ذریعے شامل کی گئی تھی جس میں 0.958 کی حد تھی تاکہ ٹول کالز کی شناخت کی جا سکے۔ اس کا مطلب یہ ہے کہ ڈویلپرز AI-ایجنٹس بنا سکتے ہیں جو بیرونی APIs، ڈیٹا بیس اور ٹولز کے ساتھ تعامل کرتے ہیں — سب کچھ Qwen3-235B کے لیے ایک ہی درخواست کے ذریعے۔

موجودہ Gonka نیٹ ورک میں 4,000 سے زیادہ GPUs (H100، H200، A100، RTX 4090 اور دیگر) شامل ہیں، جو 120+ ML-نوڈس میں متحد ہیں۔ یہ AI انفرنس کے لیے دنیا کے سب سے بڑے تقسیم شدہ GPU-نیٹ ورکس میں سے ایک ہے — اور یہ تمام طاقت Qwen3-235B کی خدمت کے لیے مرکوز ہے۔

Qwen3-235B کو کیسے آزمائیں

Qwen3-235B کو آزمانے کا سب سے آسان طریقہ JoinGonka API گیٹ وے کے ذریعے ہے۔ گیٹ وے OpenAI کے موافق API فراہم کرتا ہے، جس کا مطلب ہے: OpenAI کے لیے لکھا گیا کوئی بھی کوڈ Qwen3-235B کے ساتھ بغیر کسی تبدیلی کے کام کرتا ہے — بس URL اور API کلید تبدیل کریں۔

درخواست کی مثال:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "MoE-آرکیٹیکچر کی وضاحت کریں"}]
  }'

قیمت: 1 ملین ٹوکنز کے لیے $0.001 — یہ GPT-5.4 ($2.50/1M) سے 2,500 گنا سستا اور Claude Sonnet 4.5 ($3.00/1M) سے 3,000 گنا سستا ہے۔ رجسٹریشن پر آپ کو ٹیسٹنگ کے لیے 10 ملین مفت ٹوکنز ملتے ہیں۔

گیٹ وے مقبول ترقیاتی ٹولز کے ساتھ مطابقت رکھتا ہے: کوئیک سٹارٹ پائیتھون، Node.js اور curl کے ذریعے کنکشن کی وضاحت کرتا ہے۔ IDE انٹیگریشنز — Cursor، Continue، Cline، Aider اور Claude Code — اور AI ایجنٹس کے لیے فریم ورک: LangChain، n8n، LibreChat، Open WebUI بھی سپورٹ کرتے ہیں۔

فوری آغاز کے لیے:

gate.joingonka.ai پر رجسٹر ہوں (والٹ سے منسلک کریں یا نیا بنائیں)
ڈیش بورڈ میں API کلید حاصل کریں
اپنے کوڈ میں api.openai.com کو gate.joingonka.ai/api سے تبدیل کریں
qwen3-235b-a22b ماڈل استعمال کریں

JoinGonka کے ذریعے Qwen3-235B ایک انٹرپرائز سطح کا AI ہے جو ہوبی پروجیکٹ کی قیمت پر ہے۔

Qwen3-235B-A22B علی بابا کلاؤڈ کا 235 بلین پیرامیٹرز والا MoE-ماڈل ہے، جسے گونکا نیٹ ورک غیر مرکزی AI انفرنس کے لیے استعمال کرتا ہے۔ MoE-فن تعمیر کی بدولت، یہ GPT-5.4 کے معیار کی سطح فراہم کرتا ہے لیکن لاگت 2,500 گنا کم ہے۔ JoinGonka گیٹ وے کے ذریعے، یہ ماڈل OpenAI کے موافق API کے ذریعے $0.001/1M ٹوکنز میں دستیاب ہے۔

← Gonka کے لیے GPU کا انتخاب: ہارڈ ویئر کی سفارشات Kimi K2.6: گونکا نیٹ ورک کا دوسرا ماڈل →

مزید جاننا چاہتے ہیں؟

دیگر حصوں کو دریافت کریں یا ابھی GNK کمانا شروع کریں۔

Qwen3-235B آزمائیں →