لاما انڈیکس + گونکا AI — RAG-ایپلی کیشنز صرف چند روپے میں

LlamaIndex ایک Python-پر مبنی فریم ورک ہے جو RAG ایپلی کیشنز اور AI ایجنٹس بنانے کے لیے استعمال ہوتا ہے (LlamaIndex.TS نامی ایک TypeScript ورژن بھی دستیاب ہے)۔ یہ دستاویزات کو لوڈ کرنے، چنکنگ، انڈیکسنگ، ویکٹر سرچ اور جوابات جمع کرنے کا عمل سنبھالتا ہے — آپ صرف اپنا ڈیٹا بیان کرتے ہیں اور LlamaIndex اسے کسی بھی LLM کے اوپر ایک سوال و جواب کے نظام میں تبدیل کر دیتا ہے۔

ایک بڑا مسئلہ انفرنس کی قیمت ہے۔ RAG اپنی فطرت کے مطابق بہت زیادہ وسائل استعمال کرتا ہے: ہر سوال کے ساتھ ماڈل کو ایک درخواست اور کچھ سیاق و سباق کے ٹکڑے بھیجے جاتے ہیں، اور بڑے کلیکشنز کے لیے ایمبیڈنگز بھی شامل ہو جاتی ہیں۔ پروڈکشن اسکیل پر یہ روزانہ ہزاروں درخواستیں ہوتے ہیں۔ OpenAI ($2.50–15 فی 1M ٹوکن) یا Anthropic ($3–15 فی 1M) کے ساتھ ایک معمولی Q&A سروس بھی ماہانہ ہزاروں ڈالر کا خرچہ بن سکتی ہے۔

LlamaIndex کسی بھی OpenAI-مطابقت پذیر endpoint کے ساتھ OpenAILike کلاس کے ذریعے مقامی طور پر کام کرتا ہے۔ اس کا مطلب ہے کہ JoinGonka Gateway کو صرف چند لائنوں میں منسلک کیا جا سکتا ہے — بغیر کسی کسٹم پرووائیڈرز یا پیچز کے۔ نتیجہ: وہی RAG سسٹم Gonka کے وکندریقرت نیٹ ورک کے ذریعے $0.003 فی 1M ان پٹ ٹوکنز (آؤٹ پٹ ×3) پر کام کرتا ہے — جو کلاؤڈ API سے سینکڑوں اور ہزاروں گنا سستا ہے۔

فوری آغاز: OpenAILike کے ذریعے کنکشن

JoinGonka API-key: gate.joingonka.ai/register پر رجسٹر ہوں — شروع میں ہم 10M مفت ٹوکنز دے رہے ہیں — اور Dashboard میں jg-xxx کی بنائیں۔

انسٹالیشن:

pip install llama-index llama-index-llms-openai-like

کسی بھی OpenAI-مطابقت پذیر API کے لیے، LlamaIndex llama_index.llms.openai_like پیکیج سے OpenAILike کلاس فراہم کرتا ہے۔ Gonka کے لیے ریکوسٹ کی ایک مختصر مثال یہ ہے:

from llama_index.llms.openai_like import OpenAILike

llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-آپ-کی-کی",
    model="MiniMaxAI/MiniMax-M2.7",
    is_chat_model=True,            # Gonka ایک chat-endpoint ہے
    is_function_calling_model=True, # نیٹو tool calling کو سپورٹ کرتا ہے
    context_window=200000,         # نیٹ ورک ماڈلز کے لیے 200K
    max_tokens=8192,               # Gateway کے ذریعے آؤٹ پٹ کی حد
)

response = llm.complete("RAG کیا ہے، تین جملوں میں وضاحت کریں۔")
print(response)

OpenAILike کے بارے میں اہم: لازمی طور پر is_chat_model=True بتائیں — ورنہ LlamaIndex completion-endpoint پر جائے گا، جو ہمارے پاس نہیں ہے۔ is_function_calling_model=True نیٹو tool calls کو فعال کرتا ہے۔ LlamaIndex تاکہ سیاق و سباق (context) کو درست طریقے سے کاٹ سکے، اس کے لیے ماڈل کے مطابق context_window سیٹ کریں۔

مثال: کویری انجن کے ساتھ RAG-پائپ لائن

LlamaIndex کا کلاسک منظرنامہ آپ کی دستاویزات کا انڈیکس بنانا اور query_engine کے ذریعے استفسار کرنا ہے۔ گلوبل LLM ایک بار Settings.llm کے ذریعے سیٹ کیا جاتا ہے، اس کے بعد پوری پائپ لائن خود بخود Gonka استعمال کرتی ہے۔

from llama_index.core import (
    VectorStoreIndex,
    SimpleDirectoryReader,
    Settings,
)
from llama_index.llms.openai_like import OpenAILike
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# 1. Gonka کے ذریعے LLM (ایک بار — عالمی سطح پر)
Settings.llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-آپ-کی-کی",
    model="MiniMaxAI/MiniMax-M2.7",
    is_chat_model=True,
    context_window=200000,
    max_tokens=8192,
)

# 2. مقامی ایمبیڈنگز (مفت، بغیر OpenAI کے)
Settings.embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-small-en-v1.5"
)

# 3. ./data فولڈر سے دستاویزات لوڈ اور انڈیکس کرنا
documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)

# 4. نالج بیس سے استفسار
query_engine = index.as_query_engine()
response = query_engine.query("یہ دستاویز کس بارے میں ہے؟")
print(response)

ایمبیڈنگز کے بارے میں اہم نکتہ: ڈیفالٹ طور پر VectorStoreIndex OpenAI کی ایمبیڈنگز (text-embedding-ada-002) استعمال کرتا ہے — یہ OpenAI کے الگ معاوضے والے کالز ہیں، Gonka کے نہیں۔ OpenAI سے مکمل نجات پانے کے لیے، Settings.embed_model کے ذریعے ایک مقامی ماڈل سیٹ کریں (جیسا کہ اوپر کی مثال میں ہے — HuggingFaceEmbedding، پیکیج pip install llama-index-embeddings-huggingface)۔ تب جنریشن Gonka کے ذریعے ہوگی، اور ویکٹرائزیشن مقامی طور پر اور مفت ہوگی۔

لاگت: ایک RAG-پائپ لائن ریکوسٹ (تلاش + جنریشن) تقریباً 2–5K LLM ٹوکن استعمال کرتی ہے۔ Gonka کے ذریعے یہ سینٹ کا معمولی حصہ ہے؛ جو OpenAI/Anthropic کے مقابلے میں 3–4 گنا سستا ہے۔ روزانہ ہزاروں ریکوسٹ پر یہ فرق ہر ماہ ہزاروں ڈالر کی بچت میں بدل جاتا ہے۔

RAG-ورک لوڈ کی لاگت کا موازنہ

ایک RAG ایپلی کیشن صرف ایک وقتی چیٹ نہیں بلکہ درخواستوں کا مسلسل بہاؤ ہے: ہر صارف کا سوال تقریباً 2–5K LLM ٹوکنز استعمال کرتا ہے۔ آئیے مختلف فراہم کنندگان کے اخراجات کا حساب لگاتے ہیں۔ JoinGonka Gateway کے ذریعے Gonka کی قیمتیں: ان پٹ ~$0.003/1M، آؤٹ پٹ ×3۔

اسیناریو	LLM ٹوکنز	OpenAI / Anthropic	JoinGonka Gonka
نالج بیس سے ایک سوال	~4K	$0.01 — $0.06	~$0.00002
سپورٹ چیٹ بوٹ (1K درخواستیں/دن)	~4M/دن	$10 — $60 روزانہ	~$0.019 روزانہ
انڈیکسنگ + Q&A (1M الفاظ)	~5M	$12 — $75	~$0.024
پروڈکشن سروس، 50K درخواستیں/ماہ	~200M/ماہ	$500 — $3,000 ماہانہ	~$0.96 ماہانہ

10M مفت ٹوکنز کے ساتھ، آپ پوری RAG پائپ لائن کو ڈیبگ کر سکتے ہیں، ٹیسٹ ڈیٹا انڈیکس کر سکتے ہیں اور ہزاروں درخواستیں چلا سکتے ہیں — بغیر ایک پیسہ خرچ کیے۔ پروڈکشن اسکیل پر، JoinGonka Gateway RAG کو ایک مہنگی سروس سے بجٹ کے ایسے حصے میں بدل دیتا ہے جو شمار بھی نہیں ہوتا۔

ایجنٹس، ٹول کالنگ اور ماڈل انتخاب

LlamaIndex صرف دستاویزات سے جواب دینے کی صلاحیت نہیں رکھتا، بلکہ ٹولز کے ساتھ ایجنٹ بھی بنا سکتا ہے۔ دونوں Gonka ماڈلز نیٹو tool calling کو سپورٹ کرتے ہیں — ایجنٹ ٹیکسٹ پارسنگ کے بغیر، منظم طریقے سے فنکشنز کال کر سکتے ہیں۔ ٹول کے ساتھ ایجنٹ کی مثال:

import asyncio
from llama_index.core.agent.workflow import FunctionAgent
from llama_index.llms.openai_like import OpenAILike

llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-آپ-کی-کی",
    model="MiniMaxAI/MiniMax-M2.7",
    is_chat_model=True,
    is_function_calling_model=True,
    context_window=200000,
    max_tokens=8192,
)

def multiply(a: float, b: float) -> float:
    """دو اعداد کو ضرب دیتا ہے۔"""
    return a * b

agent = FunctionAgent(
    tools=[multiply],
    llm=llm,
    system_prompt="آپ ایک مددگار اسسٹنٹ ہیں۔ حساب کتاب کے لیے ٹولز کا استعمال کریں۔",
)

async def main():
    result = await agent.run("1234 ضرب 5678 کتنا ہوتا ہے؟")
    print(result)

asyncio.run(main())

ماڈل کا انتخاب (model فیلڈ اور متعلقہ context_window / max_tokens کی حد):

ماڈل (`model`)	سیاق و سباق	زیادہ سے زیادہ آؤٹ پٹ	کب منتخب کریں
`moonshotai/Kimi-K2.6`	200K	8192	ڈیفالٹ: زبردست استدلال، tool calling، ایجنٹس
`MiniMaxAI/MiniMax-M2.7`	200K	8192	RAG، طویل سیاق و سباق، تفصیلی جوابات

Gateway کے ذریعے max_tokens کی حد تمام نیٹ ورک ماڈلز کے لیے 8192 تک ہے۔ اگر نان-اسٹریمنگ ریکوسٹ کے لیے max_tokens متعین نہ ہو، تو ڈیفالٹ کے طور پر 1500 ٹوکنز واپس ملیں گے — RAG جوابات اور ایجنٹ کے مراحل کے لیے اس قدر کو واضح طور پر سیٹ کریں۔

TypeScript: LlamaIndex.TS کے لیے بھی یہی راستہ ہے — @llamaindex/openai پیکیج کی OpenAI کلاس baseURL اور apiKey قبول کرتی ہے (یا OPENAI_BASE_URL / OPENAI_API_KEY ویری ایبلز پڑھتی ہے)، لہذا وہی گیٹ وے Node.js اسٹیک میں بھی منسلک کیا جا سکتا ہے۔ اگر آپ پائتھون فریم ورکس پر AI ایپلی کیشنز بنا رہے ہیں، تو LangChain کی گائیڈ بھی دیکھیں۔

LlamaIndex + Gonka = پروڈکشن کے لیے تیار RAG اور ایجنٹس، انتہائی کم لاگت میں۔ OpenAILike (is_chat_model=True) کے ذریعے کنیکٹ کریں، نیٹیو tool calling اور لوکل ایمبیڈنگز کا فائدہ اٹھائیں — OpenAI کے $2.50–15 کے بجائے $0.003/1M۔ 10M مفت ٹوکنز پوری پائپ لائن کو ڈیبگ کرنے کے لیے کافی ہیں۔

← Roo Code + Gonka AI — VS Code میں خودمختار AI ایجنٹ PydanticAI + گونکا — ٹائپ شدہ AI-ایجنٹ صرف چند روپے میں →

مزید جاننا چاہتے ہیں؟

دیگر حصوں کو دریافت کریں یا ابھی GNK کمانا شروع کریں۔

10M مفت ٹوکن حاصل کریں →