علم کے مرکز کے حصے ▾

سرمایہ کاروں کے لیے

ٹولز

ٹیکنالوجی

Qwen3-235B: وہ ماڈل جسے Gonka مائن کرتا ہے

گونکا نیٹ ورک محض GPU کرایہ پر نہیں دیتا — یہ انفرنس کے لیے AI ماڈلز کو سروس فراہم کرتا ہے۔ کافی عرصے تک، یہ علی بابا کلاؤڈ کا تیار کردہ واحد ماڈل Qwen3-235B-A22B-Instruct تھا، اور مئی 2026 میں Moonshot AI کا Kimi K2.6 اس میں شامل ہو گیا۔ ہم اس ماڈل کا تجزیہ کریں گے، گونکا نے اسے کیوں منتخب کیا، اور اسے ہمارے API گیٹ وے کے ذریعے کیسے آزمایا جا سکتا ہے۔

Qwen3-235B کیا ہے؟

Qwen3-235B-A22B-Instruct-2507-FP8 ایک بڑا لسانی ماڈل (LLM) ہے جو Qwen3 خاندان سے تعلق رکھتا ہے، جسے Alibaba Cloud میں Qwen ٹیم نے تیار کیا ہے۔ مکمل نام کی وضاحت یوں ہے: Qwen3 – سیریز کی تیسری نسل، 235B – کل 235 بلین پیرامیٹرز، A22B – ہر درخواست پر 22 بلین فعال پیرامیٹرز، Instruct – ہدایات پر عمل کرنے کی تربیت یافتہ ورژن، 2507 – جولائی 2025 کا ریلیز، FP8 – میموری کی اصلاح کے لیے 8-bit کوانٹائزیشن۔

کلیدی آرکیٹیکچرل خصوصیت – MoE (Mixture of Experts) ہے۔ 'گھنے' ماڈلز (GPT-5.5، Claude Sonnet 4.6) کے برخلاف، جہاں ہر ٹوکن تمام پیرامیٹرز سے گزرتا ہے، MoE-ماڈل ہر درخواست پر 'ماہرین' کے صرف ایک ذیلی سیٹ کو فعال کرتا ہے – نیورل نیٹ ورک کے مخصوص بلاکس۔ Qwen3-235B کے معاملے میں 235 بلین پیرامیٹرز میں سے ہر ٹوکن پر صرف 22 بلین فعال ہوتے ہیں – 10% سے بھی کم۔ یہ 200B+ پیرامیٹرز والے ماڈلز کے برابر معیار فراہم کرتا ہے جبکہ 22B والے ماڈل کی کمپیوٹیشنل لاگت پر۔

عملی طور پر اس کا مطلب ہے: ماڈل اپنی رفتار سے کہیں زیادہ ذہین ہے۔ یہ موازنہ معیار کے گھنے ماڈلز کے مقابلے میں درخواستوں کو نمایاں طور پر تیزی سے پروسیس کرتا ہے، جبکہ انفرنس کے لیے کئی گنا کم VRAM کی ضرورت ہوتی ہے۔ یہی وجہ ہے کہ MoE 2025-2026 کے سب سے بڑے ماڈلز کے لیے غالب آرکیٹیکچر بن گیا۔

Qwen3-235B کی کنٹیکسٹ ونڈو 131,072 ٹوکنز (~100,000 الفاظ) ہے – یہ ایک درخواست میں پوری کتابوں، کوڈ بیسز یا لمبے قانونی دستاویزات کا تجزیہ کرنے کے لیے کافی ہے۔ ماڈل 119 زبانوں کو سپورٹ کرتا ہے، بشمول روسی، انگریزی، چینی، عربی، ہندی اور دسیوں دیگر – جو اسے مارکیٹ میں سب سے زیادہ کثیر لسانی ماڈلز میں سے ایک بناتا ہے۔

خصوصیات اور بینچ مارکس

Qwen3-235B سب سے بڑے بند اور کھلے ماڈلز کا مقابلہ کرتی ہے۔ یہاں اہم خصوصیات کا موازنہ ہے:

ماڈلپیرامیٹرزسیاق و سباقMoEاوپن سورسقیمت (فی 1M ٹوکنز)
Qwen3-235B (بذریعہ JoinGonka)235B (22B فعال)131Kہاںہاں (Apache 2.0)$0.001
GPT-5.5 (OpenAI)~1.8T (تخمینہ)128Kہاں (قیاس کیا گیا)نہیں$5.00
Claude Sonnet 4.6 (Anthropic)ظاہر نہیں کیا گیا200Kنہیں (قیاس کیا گیا)نہیں$3.00
Llama 4 Maverick (Meta)400B (17B فعال)1Mہاںہاں (Llama License)$0.20+ (ہوسٹنگ)
DeepSeek-R1 (DeepSeek)671B (37B فعال)128Kہاںہاں (MIT)$0.55

Qwen3-235B زیادہ تر بینچ مارکس پر GPT-5.5 اور Claude Sonnet 4.6 کے برابر معیار دکھاتا ہے، جبکہ JoinGonka Gateway کے ذریعے اس کی قیمت GPT-5.5 سے 5,000 گنا کم ہے۔ یہ دو عوامل کی بدولت ممکن ہے: MoE-آرکیٹیکچر کمپیوٹیشنل اخراجات کو کم کرتا ہے، اور غیر مرکزی Gonka نیٹ ورک ڈیٹا سینٹرز کے مارجن کو ختم کرتا ہے۔

MMLU-Pro، HumanEval، MATH-500 اور GSM8K بینچ مارکس پر ماڈل بہترین اوپن سورس ماڈلز کے ٹاپ تین میں شامل ہے، جو صرف DeepSeek-R1 سے حسابی دلائل (reasoning) کے کاموں میں پیچھے ہے۔ کوڈ جنریشن، ترجمہ اور ہدایات پر عمل کرنے کے کاموں میں Qwen3-235B مسلسل Llama 4 Maverick سے آگے ہے اور Claude Sonnet 4.6 کے مقابلے میں ہے۔

گونکا Qwen3-235B کو کیسے استعمال کرتا ہے؟

Qwen3-235B ماڈل گونکا نیٹ ورک میں تقسیم کے ساتھ کام کرتا ہے — DiLoCo پروٹوکول کے ذریعے، جسے انفرنس کے لیے ڈھال لیا گیا ہے۔ FP8 فارمیٹ میں مکمل ماڈل کو تقریباً 640 GB ویڈیو میموری (VRAM) کی ضرورت ہوتی ہے، جو ایک GPU پر فٹ نہیں ہو سکتا — یہاں تک کہ H100 80GB یا H200 141GB بھی کافی نہیں ہے۔ لہذا، ماڈل کئی ML-نوڈس کے درمیان تہوں کے لحاظ سے تقسیم کیا گیا ہے (tensor parallelism + pipeline parallelism)۔

عملی طور پر Qwen3-235B 8-16 GPU-نوڈس کے ایک کلسٹر پر چلتا ہے، ہر ایک کم از کم 40 GB VRAM کے ساتھ۔ ٹرانسفر ایجنٹس درخواست کو مطلوبہ کلسٹر تک پہنچاتے ہیں، ہر نوڈ پر vLLM ماڈل کے اپنے حصے پر کارروائی کرتا ہے، نتائج کو اکٹھا کیا جاتا ہے اور صارف کو واپس کر دیا جاتا ہے۔ یہ سارا عمل سینکڑوں ملی سیکنڈ لیتا ہے — صارف کو محسوس نہیں ہوتا کہ اس کی درخواست کو سیارے کے مختلف مقامات پر موجود درجن بھر GPUs نے پروسیس کیا ہے۔

ایک اہم تکنیکی تفصیل: Gonka، سرونگ کے لیے انجن کے طور پر vLLM کا استعمال کرتا ہے۔ vLLM ایک اوپن سورس پروجیکٹ ہے جو PagedAttention کے ذریعے ہائی پرفارمنس ٹیکسٹ جنریشن فراہم کرتا ہے — ایک الگورتھم جو کئی درخواستوں کی متوازی پروسیسنگ کے دوران ویڈیو میموری کے استعمال کو بہتر بناتا ہے۔ یہ نیٹ ورک کو ہزاروں ہم وقت صارفین کو معیار کی کمی کے بغیر خدمت فراہم کرنے کی اجازت دیتا ہے۔

ماڈل نیٹیو ٹول کالنگ کو سپورٹ کرتا ہے — ماڈل کے جواب سے براہ راست فنکشنز اور ٹولز کو کال کرنا۔ یہ خصوصیت Gonka میں PR #767 کے ذریعے شامل کی گئی تھی جس میں 0.958 کی حد تھی تاکہ ٹول کالز کی شناخت کی جا سکے۔ اس کا مطلب یہ ہے کہ ڈویلپرز AI-ایجنٹس بنا سکتے ہیں جو بیرونی APIs، ڈیٹا بیس اور ٹولز کے ساتھ تعامل کرتے ہیں — سب کچھ Qwen3-235B کے لیے ایک ہی درخواست کے ذریعے۔

موجودہ Gonka نیٹ ورک میں 4,000 سے زیادہ GPUs (H100، H200، A100، RTX 4090 اور دیگر) شامل ہیں، جو 120+ ML-نوڈس میں متحد ہیں۔ یہ AI انفرنس کے لیے دنیا کے سب سے بڑے تقسیم شدہ GPU-نیٹ ورکس میں سے ایک ہے — اور یہ تمام طاقت Qwen3-235B کی خدمت کے لیے مرکوز ہے۔

Qwen3-235B کو کیسے آزمائیں

Qwen3-235B کو آزمانے کا سب سے آسان طریقہ JoinGonka API Gateway کے ذریعے ہے۔ گیٹ وے ایک OpenAI-ہم آہنگ API فراہم کرتا ہے، جس کا مطلب ہے: OpenAI کے لیے لکھا گیا کوئی بھی کوڈ Qwen3-235B کے ساتھ بغیر کسی تبدیلی کے کام کرتا ہے — صرف URL اور API کلید کو تبدیل کرنا کافی ہے۔

درخواست کی مثال:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "MoE-آرکیٹیکچر کی وضاحت کریں"}]
  }'

قیمت: 1 ملین ٹوکنز کے لیے $0.001 — یہ GPT-5.5 ($5.00/1M) سے 5,000 گنا اور Claude Sonnet 4.6 ($3.00/1M) سے 3,000 گنا سستا ہے۔ رجسٹریشن پر آپ کو ٹیسٹنگ کے لیے 10 ملین مفت ٹوکن ملتے ہیں۔

گیٹ وے مقبول ڈویلپمنٹ ٹولز کے ساتھ ہم آہنگ ہے: Quick Start پائیتھون، Node.js اور curl کے ذریعے کنکشن کی وضاحت کرتا ہے۔ IDE-انٹیگریشنز — Cursor, Continue, Cline, Aider اور Claude Code — اور AI-ایجنٹس کے فریم ورکس: LangChain, n8n, LibreChat, Open WebUI بھی تعاون یافتہ ہیں۔

فوری آغاز کے لیے:

  1. gate.joingonka.ai پر رجسٹر ہوں (والٹ منسلک کریں یا نیا بنائیں)
  2. ڈیش بورڈ میں API کلید حاصل کریں
  3. اپنے کوڈ میں api.openai.com کو gate.joingonka.ai/api سے تبدیل کریں
  4. ماڈل qwen3-235b-a22b استعمال کریں

JoinGonka کے ذریعے Qwen3-235B — یہ انٹرپرائز-لیول AI ہے جو شوقیہ منصوبے کی قیمت پر دستیاب ہے۔

موازنہ کے لیے: وہی Qwen3-235B ماڈل OpenRouter کے ذریعے 1M کے لیے $0.071/$0.100 پر دستیاب ہے — جو JoinGonka کے $0.001 کے مقابلے میں (70-100 گنا زیادہ مہنگا) ہے۔

Qwen3-235B-A22B ایک MoE ماڈل ہے جس میں Alibaba Cloud کے 235 بلین پیرامیٹرز ہیں، جسے Gonka نیٹ ورک غیر مرکزی AI انفرنس کے لیے استعمال کرتا ہے۔ MoE-آرکیٹیکچر کی بدولت، یہ GPT-5.5 کے برابر معیار فراہم کرتا ہے جبکہ لاگت 5,000 گنا کم ہے۔ JoinGonka Gateway کے ذریعے ماڈل OpenAI-ہم آہنگ API کے ذریعے $0.001/1M ٹوکنز پر دستیاب ہے۔

مزید جاننا چاہتے ہیں؟

دیگر حصوں کو دریافت کریں یا ابھی GNK کمانا شروع کریں۔

Qwen3-235B آزمائیں →