علم کے مرکز کے حصے ▾

سرمایہ کاروں کے لیے

ٹولز

ٹیکنالوجی

Kimi K2.6: گونکا نیٹ ورک کا دوسرا ماڈل

کافی عرصے تک گونکا نیٹ ورک ایک ہی ماڈل — علی بابا کلاؤڈ کے Qwen3-235B پر کام کرتا رہا۔ مئی 2026 میں یہ بدل گیا: DevShards میکانزم کے ذریعے متعدد ماڈلز کے لیے سپورٹ شروع کی گئی، اور پہلا قدم چینی کمپنی Moonshot AI کی جانب سے Kimi K2.6 تھا۔ ہم اس ماڈل کا تجزیہ کریں گے، یہ Qwen3-235B سے کیسے مختلف ہے، گونکا نے کثیر الماڈل صلاحیت کو تکنیکی طور پر کیسے نافذ کیا، اور ہمارے API گیٹ وے کے ذریعے نیا ماڈل کیسے آزمایا جا سکتا ہے۔

Moonshot AI کا Kimi K2.6 کیا ہے؟

Kimi K2.6 بیجنگ کی کمپنی Moonshot AI کی تیار کردہ Kimi سیریز کا ایک بڑا لسانی ماڈل (LLM) ہے۔ Moonshot AI چین کی معروف AI لیبارٹریز میں سے ایک ہے، جسے 2023 میں یانگ ژیلن کی قیادت میں محققین کی ایک ٹیم نے قائم کیا تھا۔ کمپنی نے علی بابا، ٹینسنٹ اور دیگر بڑے سرمایہ کاروں سے فنڈنگ حاصل کی اور اسے “چینی AI ٹائیگرز” — ایسی کمپنیوں کی فہرست میں شامل کیا گیا جو ایشیا میں AI کی ترقی کی رفتار طے کر رہی ہیں۔

Kimi سیریز 2024 سے مشہور ہے۔ ابتدائی ورژن (K1, K1.5) نے فوری طور پر اپنی غیر معمولی طویل سیاق و سباق کی ونڈو — ایک ہی درخواست میں 200,000 ٹوکن تک — کی وجہ سے توجہ حاصل کی، جو ریلیز کے وقت عوامی طور پر دستیاب ماڈلز کے لیے ایک ریکارڈ تھا۔ طویل سیاق و سباق کا مطلب ہے کہ ایک ہی درخواست میں ایک پوری کتاب، درمیانے سائز کا کوڈ بیس یا قانونی دستاویزات کے ایک مجموعے کا تجزیہ کرنے کا عملی امکان ہے۔ Kimi کی ریلیز کے وقت یہ خصوصیت ایک مضبوط مسابقتی برتری تھی۔

K2 ورژن 2025 میں آیا اور ایک بنیادی آرکیٹیکچرل چھلانگ لایا — MoE (Mixture of Experts) میں منتقلی۔ یہی آرکیٹیکچر Qwen3-235B اور DeepSeek-R1 کی بنیاد بھی ہے — یہ 2025-2026 کے سب سے بڑے ماڈلز کے لیے ایک حقیقی معیار بن گیا ہے۔ MoE سینکڑوں اربوں پیرامیٹرز کو “کل” رکھنے کی اجازت دیتا ہے، لیکن ہر درخواست پر صرف ایک ذیلی سیٹ (عام طور پر 5-10%) کو فعال کرتا ہے، جو موازنہ معیار پر انفرنس کی کمپیوٹیشنل لاگت کو ڈرامائی طور پر کم کرتا ہے۔

K2.6 اس مضمون کی تحریر کے وقت K2 سیریز کی تازہ ترین تکرار ہے۔ Moonshot AI کے عوامی بیانات سے پتہ چلتا ہے کہ اس ورژن میں ماڈل کی ریزننگ (منطقی استدلال)، کوڈ جنریشن اور مقامی ٹول کالنگ کی صلاحیتوں کو بہتر بنایا گیا ہے۔ گونکا نیٹ ورک میں ماڈل کو moonshotai/Kimi-K2.6 کے طور پر پہچانا جاتا ہے — یہ وہ نام ہے جسے API کی درخواست کے modelA فیلڈ میں منتقل کرنا ضروری ہے۔

Kimi K2.6 اور Qwen3-235B کا موازنہ

دونوں ماڈلز چین کی سب سے بڑی AI لیبارٹریز کی پرچم بردار ترقیوں کی نمائندگی کرتے ہیں اور دونوں ہی ایک واحد OpenAI-مطابق انٹرفیس JoinGonka Gateway کے ذریعے دستیاب ہیں۔ تاہم، ان کی مختلف طاقتیں اور مختلف وراثتیں ہیں، جو ان کے درمیان انتخاب کو “کون سا بہتر ہے” کے سوال کی بجائے “کون سا کام کے لیے موزوں ہے” کا سوال بنا دیتا ہے۔

خصوصیتKimi K2.6Qwen3-235B-A22B
تیار کنندہMoonshot AI (بیجنگ)Alibaba Cloud (ہانگژو)
کمپنی کے قیام کا سال20232009 (Alibaba Cloud)
آرکیٹیکچرMoEMoE (کل 235B، فعال 22B)
سیاق و سباق ونڈوطویل سیاق و سباق (Kimi سیریز کا ٹریڈ مارک)131,072 ٹوکنز (~100,000 الفاظ)
مضبوطیاستدلال، طویل سیاق و سباق، کوڈ جنریشنعالمگیر، کثیر لسانی (119 زبانیں)، مستحکم ٹول کالنگ
JoinGonka کے ذریعے قیمت1M ٹوکنز کے لیے $0.0011M ٹوکنز کے لیے $0.001
API شناخت کنندہmoonshotai/Kimi-K2.6Qwen/Qwen3-235B-A22B-Instruct-2507-FP8
ٹول کالنگبہتری کے مراحل میں (خودکار انتخاب)مقامی، مستحکم (PR #767)
گونکا نیٹ ورک میں حیثیتDevShards کے ذریعے لانچ کیا گیا (مئی 2026)اگست 2025 سے مستحکم

2026 میں بینچ مارکس کے بارے میں ایک اہم نوٹ: عوامی ٹیسٹوں میں ٹاپ ماڈلز کے درمیان فرق چند فیصد تک کم ہو گیا ہے، اور یہ فرق اکثر خود بینچ مارکس کی شماریاتی غلطی کی حد میں ہوتا ہے۔ عملی کام کے لیے، “MMLU میں کون 2% زیادہ ہے” یہ نہیں، بلکہ کام کی نوعیت اہم ہے: آپ ماڈل کو کون سا سیاق و سباق دیتے ہیں، منطقی زنجیریں کتنی پیچیدہ ہیں، کیا گفتگو کی ایک طویل تاریخ کی ضرورت ہے، کون سی زبانیں استعمال کی جاتی ہیں۔ لہذا اوپر دی گئی جدول ماڈلز کی درجہ بندی نہیں کرتی — یہ یہ سمجھنے میں مدد کرتی ہے کہ ان میں سے ہر ایک کو کس قسم کے کام کے لیے بہتر بنایا گیا ہے۔

عملی انتخاب کے لیے: اگر کام میں طویل سیاق و سباق (بڑے دستاویزات کا تجزیہ، بڑے کوڈ بیس کو پڑھنا، تاریخ کو محفوظ رکھتے ہوئے طویل گفتگو) یا پیچیدہ استدلال کے کاموں کی ضرورت ہو — تو Kimi K2.6 سے شروع کرنا چاہیے۔ عالمگیر کاموں، ترجمہ، کثیر لسانی کام اور پروڈکشن میں مستحکم ٹول کالنگ کے لیے — Qwen3-235B اب تک زیادہ قابل اعتماد آپشن لگتا ہے، کیونکہ یہ گونکا نیٹ ورک میں زیادہ عرصے سے کام کر رہا ہے۔ پروڈکشن میں ایک اچھی حکمت عملی یہ ہے کہ آپ کے کوڈ میں دونوں ماڈلز ہوں: model پیرامیٹر کے ذریعے فوری تبدیلی ایپلی کیشن آرکیٹیکچر کو تبدیل کیے بغیر کام کے لحاظ سے ان کے درمیان سوئچ کرنے کی اجازت دیتی ہے۔

DevShards: گونکا نے دوسرا ماڈل کیسے لانچ کیا

2026 کے موسم بہار سے پہلے، گونکا نیٹ ورک صرف ایک ماڈل — Qwen3-235B — کو سروس فراہم کرتا تھا۔ آرکیٹیکچر کے نقطہ نظر سے یہ ایک سمجھدار فیصلہ تھا: موزع انفرنس DiLoCo کے ذریعے ضروری ہے کہ نیٹ ورک کے تمام شرکاء ویڈیو میموری میں ایک ہی ماڈل کو رکھیں، ورنہ یہ ضمانت دینا ناممکن ہے کہ کوئی بھی نوڈ کسی بھی درخواست کو پروسیس کر سکے گا۔ FP8 فارمیٹ میں مکمل Qwen3-235B تقریباً 640 GB VRAM پر قبضہ کرتا ہے، جو ہر ML-node کے لیے خود ایک بہت بڑا عزم ہے۔

کثیر ماڈل نیٹ ورک میں منتقلی کے لیے ایک ایسے میکانزم کی ضرورت تھی جو ایک ہی وقت میں کئی ماڈلز کو رکھ سکے، لیکن ہر ہوسٹ سے ان سب کو چلانے کا مطالبہ نہ کرے۔ یہ میکانزم DevShards بن گیا — نیٹ ورک کے الگ الگ شارڈز، جن میں سے ہر ایک ایک ماڈل میں مہارت رکھتا ہے۔ ایک شارڈ کے اندر موجود نوڈز ایک ہی ماڈل پر کام کرتے ہیں، اور نیٹ ورک راؤٹر درخواست کو مطلوبہ ماڈل والے شارڈ کی طرف بھیجتا ہے۔

یہ خیال کہیں سے نہیں آیا تھا — اسے Gonka Improvement Proposal #800 “Multi-Model PoC” میں باقاعدہ بنایا گیا تھا، جسے 2026 کے موسم بہار میں کمیونٹی کی رائے شماری کے لیے پیش کیا گیا تھا۔ اس تجویز کو شرکاء اور نیٹ ورک کے توثیق کنندگان کی حمایت حاصل ہوئی اور اسے اپریل-مئی 2026 میں نافذ کیا گیا۔ Kimi K2.6 ایک الگ DevShard پر لانچ ہونے والا پہلا ماڈل بن گیا — یعنی، نئے طریقہ کار کا ایک عملی ٹیسٹ۔ اگر تجربہ کامیاب رہتا ہے، تو تیسرا، چوتھا وغیرہ — ہر ایک اپنے شارڈ پر، اپنے میزبانوں کے سیٹ کے ساتھ، اپنی معیشت اور اپنے روڈ میپ کے ساتھ — لانچ کرنے میں کوئی رکاوٹ نہیں ہوگی۔

صارفین اور ڈویلپرز کے لیے اس کا کیا مطلب ہے:

  • ایک API — کئی ماڈلز۔ JoinGonka Gateway کے ذریعے اینڈ پوائنٹ یا کلیدوں کو تبدیل کرنے کی ضرورت نہیں: درخواست کے باڈی میں صرف ایک مختلف modelA کو مخصوص کرنا کافی ہے۔ OpenAI-ہم آہنگ فارمیٹ مکمل طور پر برقرار رہتا ہے۔
  • قیمت وہی ہے۔ فی الحال، نیٹ ورک میں Kimi K2.6 کی قیمت Qwen3-235B کے برابر ہے — گیٹ وی کے ذریعے 1M ٹوکنز کے لیے $0.001। مستقبل میں ماڈلز کے لحاظ سے قیمتیں مختلف ہو سکتی ہیں، لیکن شروع میں ایک ہی قیمت لگانا صارفین کی ہجرت کو آسان بنانے کے لیے ایک شعوری فیصلہ ہے۔
  • استحکام شارڈ کے بوجھ پر منحصر ہے۔ ابتدائی مراحل میں، Kimi شارڈ کے پاس Qwen کے مرکزی شارڈ کے مقابلے میں کم میزبان ہوتے ہیں، لہذا درخواستوں کی کثافت پر ماڈل عارضی طور پر 429 too many concurrent requests واپس کر سکتا ہے۔ یہ ایک نئے ماڈل کے لیے ایک عام مرحلہ ہے — جیسے جیسے دلچسپی بڑھے گی، میزبان Kimi شارڈ سے جڑتے جائیں گے، اور حدود بڑھیں گی۔
  • ٹول کالنگ — تیاری کے مراحل میں ہے۔ اس مضمون کی تحریر کے وقت، گونکا نیٹ ورک میں Kimi K2.6 کے خودکار ٹول انتخاب (tool_choice: "auto") میں معمولی مسائل کی اطلاع دی گئی ہے۔ گونکا ٹیم طرز عمل کو OpenAI کے معیار کے مطابق لانے پر کام کر رہی ہے؛ ٹول کالنگ کے ساتھ پروڈکشن میں اہم منظرناموں کے لیے، فی الحال Qwen3-235B استعمال کرنے کی سفارش کی جاتی ہے۔

گونکا کے ذریعے Kimi K2.6 کو کیسے آزمایا جائے

سب سے سیدھا راستہ JoinGonka API Gateway کے ذریعے ہے۔ گیٹ وے ایک OpenAI-مطابق API فراہم کرتا ہے، جس کا مطلب ہے: وہی کوڈ جو GPT، Claude، یا Qwen کے ساتھ کام کرتا ہے، درخواست کے باڈی میں modelA فیلڈ کی قدر تبدیل کرنے کے بعد Kimi کے ساتھ بھی کام کرنا شروع کر دے گا۔

curl کے ذریعے ایک کم از کم مثال:

curl https://gate.joingonka.ai/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2.6",
    "messages": [
      {"role": "user", "content": "MoE اور dense ماڈلز کے درمیان فرق وضاحت کرو"}
    ]
  }'

openai لائبریری کے ذریعے پائتھن سے وہی درخواست:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://gate.joingonka.ai/v1",
)

response = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "سلام، Kimi"}],
)
print(response.choices[0].message.content)

سٹرمنگ (Server-Sent Events) — انٹرایکٹو انٹرفیسز اور چیٹس کے لیے، جہاں جواب جنریشن کے دوران دکھانا مقصود ہو:

stream = client.chat.completions.create(
    model="moonshotai/Kimi-K2.6",
    messages=[{"role": "user", "content": "MoE کے بارے میں ایک مضمون لکھو"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Kimi K2.6 کی قیمت وہی ہے $0.001 فی 1 ملین ٹوکنز جو Qwen3-235B کی ہے۔ یہ GPT-5.4 سے تقریباً 2,500 گنا اور Claude Sonnet 4.5 سے تقریباً 3,000 گنا سستا ہے۔ JoinGonka Gateway میں رجسٹریشن پر آپ کو نیٹ ورک کے کسی بھی ماڈل کی جانچ کے لیے 10 ملین مفت ٹوکنز ملتے ہیں — یہ کئی گھنٹوں کے گہرے کام یا ہزاروں عام درخواستوں کے لیے کافی ہے۔

ڈویلپمنٹ ٹولز کے ساتھ مطابقت: ہر وہ چیز جو OpenAI API کے ساتھ کام کرتی ہے، وہ گیٹ وے کے ذریعے Kimi کے ساتھ بھی کام کرتی ہے۔ ماڈل کی سطح پر صرف modelA پیرامیٹر کو تبدیل کرنا کافی ہے:

  • Cursor: کسٹم ماڈل سیٹنگز میں moonshotai/Kimi-K2.6 درج کریں۔
  • Claude Code: ماحولیاتی متغیر ANTHROPIC_MODEL یا فلیگ --model۔
  • OpenClaw، Cline، Continue.dev: کسٹم چیٹ ماڈل کی کنفیگریشن میں ماڈل کا نام تبدیل کریں۔
  • LangChain، n8n: کلائنٹ اِنیشیلائزیشن میں modelA پیرامیٹر۔
  • Open WebUI، LibreChat: گونکا کو کسٹم فراہم کنندہ کے طور پر شامل کرنے کے بعد ماڈل ڈراپ ڈاؤن لسٹ میں ظاہر ہوتا ہے۔

دستیاب ماڈلز کی فہرست آپ کے گیٹ وے انسٹنس کے GET /v1/models اینڈ پوائنٹ پر ہمیشہ تازہ ترین ہوتی ہے — وہاں سے آپ اسے اپنی ایپلیکیشن کے UI میں متحرک طور پر کھینچ سکتے ہیں تاکہ صارفین مکمل فہرست دیکھ سکیں اور خود ماڈل منتخب کر سکیں۔

اشاعت کے وقت /try صفحہ پر ڈیمو چیٹ صرف Qwen3-235B کے ساتھ کام کرتا ہے — ویجیٹ میں کثیر ماڈل سلیکٹر روڈ میپ پر ہے۔ Kimi کو فوراً آزمانے کے لیے گیٹ وے API استعمال کریں: 10M مفت ٹوکنز کئی گھنٹوں کے تجربات کے لیے کافی ہیں۔ اگر جواب میں 429 too many concurrent requests آتا ہے — تو یہ گونکا نیٹ ورک کے ابتدائی مراحل میں ایک نئے ماڈل کے لیے ایک عام مرحلہ ہے۔ بس چند سیکنڈ انتظار کریں یا کم بوجھ والی ونڈو کا انتظار کریں۔

گونکا نیٹ ورک کے لیے آگے کیا: Kimi کے لیے DevShards کی کامیابی دوسرے ماڈلز کے لیے راہ ہموار کرتی ہے۔ کمیونٹی کی گفتگو میں DeepSeek-V3/R1، Llama 4 اور کوڈ کے لیے مخصوص ماڈلز کا ذکر ہے۔ ہر نیا ماڈل ایک نیا شارڈ، نئے میزبان، صارفین کے لیے نئے مواقع اور GPU فراہم کنندگان کے لیے آمدنی کا نیا ذریعہ ہے۔ کثیر ماڈل آرکیٹیکچر حکمت عملی کے لحاظ سے بھی اہم ہے: ایک ماڈل سے منسلک نیٹ ورک بنیادی طور پر کمزور ہوتا ہے (ایک نئے ورژن کی ریلیز — ہجرت کا بحران)، جبکہ ایک ہی وقت میں کئی ماڈلز کو رکھنے کے قابل نیٹ ورک نرمی اور مسلسل ترقی کرتا ہے۔

Kimi K2.6 ایک MoE ماڈل ہے جو Moonshot AI کا ہے جس میں طویل سیاق و سباق اور مضبوط استدلال کی صلاحیتیں ہیں۔ مئی 2026 میں، یہ Qwen3-235B کے بعد گونکا نیٹ ورک کا دوسرا ماڈل بن گیا، جسے DevShards (ماڈل کے لیے الگ شارڈ) میکانزم کے ذریعے لانچ کیا گیا۔ JoinGonka Gateway کے ذریعے یہ OpenAI-مطابق API پر 1M ٹوکنز کے لیے $0.001 میں دستیاب ہے — وہی قیمت جو Qwen کی ہے۔ API میں ماڈل کا شناخت کنندہ: moonshotai/Kimi-K2.6۔ ابتدائی مرحلے میں درخواستوں کی کثافت پر عارضی 429 ممکن ہیں؛ ٹول کالنگ تیاری کے مراحل میں ہے۔

مزید جاننا چاہتے ہیں؟

دیگر حصوں کو دریافت کریں یا ابھی GNK کمانا شروع کریں۔

گیٹ وے کے ذریعے Kimi K2.6 کو آزمائیں →