علم کے مرکز کے حصے ▾

سرمایہ کاروں کے لیے

ٹولز

ٹولز

لاما انڈیکس + گونکا AI — RAG-ایپلی کیشنز صرف چند روپے میں

لاما انڈیکس — RAG-ایپلی کیشنز اور پائتھون پر AI ایجنٹ کی تعمیر کے لیے ایک اہم فریم ورک ہے (LlamaIndex.TS کا TypeScript ورژن بھی موجود ہے)۔ یہ دستاویزات کو لوڈ کرنے، چنکس میں تقسیم کرنے، انڈیکسنگ، ویکٹرز کے ذریعے تلاش اور جواب کی تشکیل کا ذمہ لیتا ہے — آپ ڈیٹا کی وضاحت کرتے ہیں، اور لاما انڈیکس اسے کسی بھی LLM کے اوپر ایک سوال-جواب سسٹم میں تبدیل کر دیتا ہے۔

صرف ایک مسئلہ ہے — انفرنس کی لاگت۔ RAG اپنی فطرت کے مطابق بہت زیادہ استعمال کرتا ہے: ماڈل میں ہر سوال کے لیے ایک درخواست اور سیاق و سباق کے کئی ملے ہوئے ٹکڑے روانہ ہوتے ہیں، اور بڑی کلیکشنز کو انڈیکس کرنے کے لیے ایمبیڈنگز شامل ہوتی ہیں۔ پروڈکشن کی مقدار پر یہ روزانہ ہزاروں درخواستیں بن جاتی ہیں۔ OpenAI ($2.50–15 فی 1M ٹوکنز) یا Anthropic ($3–15 فی 1M) کے ساتھ ایک معمولی سوال-جواب سروس بھی ماہانہ دسیوں ہزار ڈالر میں بدل جاتی ہے۔

LlamaIndex OpenAILike کلاس کے ذریعے کسی بھی OpenAI-مطابقت پذیر اینڈ پوائنٹ کے ساتھ مقامی طور پر کام کرتا ہے۔ اس کا مطلب ہے کہ JoinGonka Gateway کو چند سطروں کے ساتھ منسلک کیا جا سکتا ہے — بغیر حسب ضرورت فراہم کنندگان اور پیچ کے۔ نتیجہ: وہی RAG-سسٹم ناظم Gonka نیٹ ورک کے ذریعے $0.0005/1M ٹوکنز ان پٹ پر (آؤٹ پٹ ×3) پر کام کرتا ہے — کلاؤڈ API کے مقابلے میں سینکڑوں اور ہزاروں گنا سستا۔

فوری آغاز: OpenAILike کے ذریعے کنکشن

JoinGonka API کلید: gate.joingonka.ai/register پر رجسٹر ہوں — شروع میں ہم 10M مفت ٹوکنز دیتے ہیں — اور ڈیش بورڈ میں jg-xxx کلید بنائیں۔

انسٹالیشن:

pip install llama-index llama-index-llms-openai-like

کسی بھی OpenAI-مطابقت پذیر API کے لیے LlamaIndex llama_index.llms.openai_like پیکیج سے OpenAILike کلاس فراہم کرتا ہے۔ گونکا کو درخواست کی کم از کم مثال:

from llama_index.llms.openai_like import OpenAILike

llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-آپ کی کلید",
    model="Qwen/Qwen3-235B-A22B-Instruct-2507-FP8",
    is_chat_model=True,            # گونکا ایک چیٹ اینڈ پوائنٹ ہے
    is_function_calling_model=True, # مقامی ٹول کالنگ سپورٹڈ ہے
    context_window=131072,         # Qwen3-235B میں 128K
    max_tokens=8192,               # گیٹ وے کے ذریعے آؤٹ پٹ کی حد (Qwen)
)

response = llm.complete("بتائیں RAG کیا ہے، تین جملوں میں۔")
print(response)

OpenAILike کے بارے میں اہم نکتہ: is_chat_model=True کو ضرور بتائیں — ورنہ LlamaIndex تکمیل اینڈ پوائنٹ پر جائے گا، جو ہمارے پاس نہیں ہے۔ is_function_calling_model=True مقامی ٹول کالز کو فعال کرتا ہے۔ context_window ماڈل کے مطابق مقرر کریں تاکہ LlamaIndex سیاق و سباق کو صحیح طریقے سے کاٹے۔

مثال: کویری انجن کے ساتھ RAG-پائپ لائن

لاما انڈیکس کا کلاسک منظر — آپ کی دستاویزات پر انڈیکس اور query_engine کے ذریعے اس سے درخواستیں کرنا۔ عالمی LLM Settings.llm کے ذریعے ایک بار مقرر کیا جاتا ہے، اس کے بعد پوری پائپ لائن خود بخود گونکا کو استعمال کرتی ہے۔

from llama_index.core import (
    VectorStoreIndex,
    SimpleDirectoryReader,
    Settings,
)
from llama_index.llms.openai_like import OpenAILike
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# 1. Gonka کے ذریعے LLM (ایک بار — عالمی طور پر)
Settings.llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-آپ کی کلید",
    model="Qwen/Qwen3-235B-A22B-Instruct-2507-FP8",
    is_chat_model=True,
    context_window=131072,
    max_tokens=8192,
)

# 2. مقامی embeddings (مفت، بغیر OpenAI کے)
Settings.embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-small-en-v1.5"
)

# 3. ./data فولڈر سے دستاویزات کو لوڈ اور انڈیکس کرنا
documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)

# 4. علم کے ڈیٹا بیس کو درخواست
query_engine = index.as_query_engine()
response = query_engine.query("یہ دستاویز کس بارے میں ہے؟")
print(response)

ایمبیڈنگز کے بارے میں اہم نکتہ: بطور ڈیفالٹ VectorStoreIndex OpenAI ایمبیڈنگز (text-embedding-ada-002) استعمال کرتا ہے — یہ OpenAI کو الگ الگ ادا شدہ کالیں ہیں، گونکا کو نہیں ہیں۔ OpenAI سے مکمل طور پر چھٹکارا پانے کے لیے، Settings.embed_model کے ذریعے ایک مقامی ایمبیڈنگ ماڈل مقرر کریں (جیسا کہ اوپر کی مثال میں — HuggingFaceEmbedding، pip install llama-index-embeddings-huggingface پیکیج)۔ پھر جنریشن گونکا کے ذریعے ہوتی ہے، اور ویکٹرائزیشن — مقامی طور پر اور مفت۔

لاگت: RAG-پائپ لائن کی ایک درخواست (تلاش + جنریشن) ~2–5K LLM ٹوکنز استعمال کرتی ہے۔ گونکا کے ذریعے یہ سینٹ کے حصے میں ہے؛ OpenAI/Anthropic کے ذریعے — 3–4 گنا زیادہ مہنگا ہے۔ روزانہ ہزاروں درخواستوں کے بہاؤ پر فرق ماہانہ دسیوں ہزار ڈالر کی بچت میں بدل جاتا ہے۔

RAG-ورک لوڈ کی لاگت کا موازنہ

RAG-ایپلی کیشن ایک بار کی چیٹ نہیں ہے، بلکہ درخواستوں کا ایک مسلسل بہاؤ ہے: صارف کا ہر سوال 2–5K LLM ٹوکنز (خود سوال اور سیاق و سباق کے ملے ہوئے ٹکڑے) کو کھینچتا ہے۔ ہم عام مقداروں کا حساب لگائیں گے اور وہ مختلف فراہم کنندگان پر کتنے میں آتی ہیں۔ JoinGonka Gateway کے ذریعے Gonka کی قیمتیں: ان پٹ ~$0.0005/1M، آؤٹ پٹ ×3۔

منظرنامہLLM ٹوکنزOpenAI / AnthropicJoinGonka Gonka
علم کے ڈیٹا بیس سے ایک سوال~4K$0.01 — $0.06~$0.000005
سپورٹ چیٹ بوٹ (1K درخواستیں/دن)~4M/دن$10 — $60 فی دن~$0.005 فی دن
کارپس کی انڈیکسنگ + Q&A (1M الفاظ)~5M$12 — $75~$0.006
پروڈکشن سروس، 50K درخواستیں/ماہ~200M/ماہ$500 — $3,000 فی ماہ~$0.25 فی ماہ

10M مفت ٹوکنز پر آپ پوری RAG-پائپ لائن کو ٹھیک کر سکتے ہیں، ٹیسٹ کارپس کو انڈیکس کر سکتے ہیں اور ہزاروں درخواستیں چلا سکتے ہیں — اور ایک سینٹ بھی خرچ نہیں کریں گے۔ پروڈکشن کی مقدار پر JoinGonka Gateway RAG کو ایک مہنگی سروس سے اخراجات کی ایک ایسی آئٹم میں تبدیل کرتا ہے جسے بالکل ہی نظر انداز کیا جا سکتا ہے۔

ایجنٹس، ٹول کالنگ اور ماڈل انتخاب

لاما انڈیکس نہ صرف دستاویزات کے مطابق جواب دے سکتا ہے، بلکہ ٹولز کے ساتھ ایجنٹ بھی بنا سکتا ہے۔ گونکا کے تینوں ماڈلز مقامی ٹول کالنگ کو سپورٹ کرتے ہیں — ایجنٹ فنکشنز کو ساختہ طریقے سے کال کرتا ہے، ٹیکسٹ پارسنگ کے بغیر۔ ٹول کے ساتھ ایجنٹ کی مثال:

import asyncio
from llama_index.core.agent.workflow import FunctionAgent
from llama_index.llms.openai_like import OpenAILike

llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-آپ کی کلید",
    model="Qwen/Qwen3-235B-A22B-Instruct-2507-FP8",
    is_chat_model=True,
    is_function_calling_model=True,
    context_window=131072,
    max_tokens=8192,
)

def multiply(a: float, b: float) -> float:
    """دو نمبروں کو ضرب دیتا ہے۔"""
    return a * b

agent = FunctionAgent(
    tools=[multiply],
    llm=llm,
    system_prompt="آپ ایک مددگار اسسٹنٹ ہیں۔ حساب کتاب کے لیے آلات استعمال کریں۔",
)

async def main():
    result = await agent.run("1234 کو 5678 سے ضرب دینے پر کیا ہوگا؟")
    print(result)

asyncio.run(main())

ماڈل کا انتخاب (model فیلڈ اور متعلقہ حدیں context_window / max_tokens):

ماڈل (model)سیاق و سباقزیادہ سے زیادہ آؤٹ پٹکب لینا ہے
Qwen/Qwen3-235B-A22B-Instruct-2507-FP8128K8192ڈیفالٹ: RAG، ایجنٹ، طویل جوابات
moonshotai/Kimi-K2.6128K3072مضبوط دلائل اور ٹول کالنگ
MiniMaxAI/MiniMax-M2.7128K4096ایجنٹ کے کاموں کے لیے متبادل

گیٹ وے کے ذریعے max_tokens کی حد — Qwen3 ماڈل پر 8192 تک؛ Kimi اور MiniMax کے لیے بالترتیب 3072 اور 4096 بتائیں۔ اگر نان-سٹریمنگ درخواست کے لیے max_tokens مقرر نہیں ہے، تو بطور ڈیفالٹ 1500 ٹوکنز تک واپس کیے جائیں گے — RAG-جوابات اور ایجنٹ کے مراحل کے لیے واضح طور پر قیمت مقرر کریں۔

TypeScript: LlamaIndex.TS کے لیے ایک آئینہ دار راستہ ہے — @llamaindex/openai پیکیج سے OpenAI کلاس baseURL اور apiKey کو قبول کرتی ہے (یا OPENAI_BASE_URL / OPENAI_API_KEY متغیرات کو پڑھتی ہے)، لہٰذا وہی گیٹ وے Node.js-اسٹیک میں بھی منسلک ہوتا ہے۔ اگر آپ پائتھون فریم ورکس پر بھی AI-ایپلی کیشنز بنا رہے ہیں، تو LangChain کے لیے گائیڈ بھی دیکھیں۔

LlamaIndex + گونکا = پروڈکشن کے لیے تیار RAG اور ایجنٹ صرف چند روپے میں۔ OpenAILike کے ذریعے کنکشن (is_chat_model=True)، مقامی ٹول کالنگ، مقامی ایمبیڈنگز — OpenAI کے $2.50–15 کے بجائے $0.0005/1M ان پٹ۔ 10M مفت ٹوکنز پوری پائپ لائن کو ٹھیک کرنے کے لیے کافی ہوں گے۔

مزید جاننا چاہتے ہیں؟

دیگر حصوں کو دریافت کریں یا ابھی GNK کمانا شروع کریں۔

10M مفت ٹوکن حاصل کریں →