LlamaIndex + Gonka AI — RAG অ্যাপ্লিকেশন নগণ্য খরচে

LlamaIndex হলো Python-এ RAG অ্যাপ্লিকেশন এবং AI এজেন্ট তৈরির একটি শীর্ষস্থানীয় ফ্রেমওয়ার্ক (এছাড়াও LlamaIndex.TS নামে একটি TypeScript সংস্করণ রয়েছে)। এটি ডকুমেন্ট লোড করা, চাঙ্ক করা, ইনডেক্সিং, ভেক্টর সার্চ এবং রেসপন্স তৈরির কাজগুলো পরিচালনা করে — আপনি শুধু ডেটা বর্ণনা করবেন, আর LlamaIndex সেটিকে যেকোনো LLM-এর উপরে একটি প্রশ্ন-উত্তর সিস্টেমে পরিণত করবে।

একটি সমস্যা হলো ইনফারেন্সের খরচ। RAG মূলত ডেটা-ইনটেনসিভ: প্রতিটি প্রশ্নের সাথে মডেলের কাছে একটি রিকোয়েস্ট এবং বেশ কিছু প্রাসঙ্গিক কনটেক্সট পাঠানো হয়, এবং বড় কালেকশন ইন্ডেক্স করার জন্য এমবেডিং যুক্ত হয়। প্রোডাকশন স্কেলে এটি দিনে হাজার হাজার রিকোয়েস্ট তৈরি করে। OpenAI ($2.50–15 প্রতি 1M টোকেন) বা Anthropic ($3–15 প্রতি 1M) এর সাথে একটি সাধারণ প্রশ্ন-উত্তর সাইটও মাসে দশ হাজার ডলারের খরচ তৈরি করতে পারে।

LlamaIndex ন্যাটিভলি যেকোনো OpenAI-সামঞ্জস্যপূর্ণ endpoint এর সাথে OpenAILike ক্লাসের মাধ্যমে কাজ করে। এর মানে হলো JoinGonka Gateway মাত্র কয়েকটি লাইনের কোডেই কানেক্ট করা যায় — কোনো কাস্টম প্রোভাইডার বা প্যাচ ছাড়াই। ফলাফল: একই RAG সিস্টেম বিকেন্দ্রীভূত Gonka নেটওয়ার্কের মাধ্যমে প্রতি 1M ইনপুট টোকেনে $0.003 (আউটপুট ×3) হিসেবে কাজ করে — যা ক্লাউড API-এর চেয়ে শতগুণ বা হাজার গুণ সস্তা।

দ্রুত শুরু: OpenAILike এর মাধ্যমে সংযোগ

JoinGonka API-key: gate.joingonka.ai/register-এ রেজিস্ট্রেশন করুন — শুরুতে আমরা 10M ফ্রি টোকেন দিচ্ছি — এবং Dashboard-এ jg-xxx কী তৈরি করুন।

ইনস্টলেশন:

pip install llama-index llama-index-llms-openai-like

যেকোনো OpenAI-সামঞ্জস্যপূর্ণ API-এর জন্য, LlamaIndex llama_index.llms.openai_like প্যাকেজ থেকে OpenAILike ক্লাস প্রদান করে। Gonka-তে রিকোয়েস্টের একটি ন্যূনতম উদাহরণ নিচে দেওয়া হলো:

from llama_index.llms.openai_like import OpenAILike

llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-your-key",
    model="MiniMaxAI/MiniMax-M2.7",
    is_chat_model=True,            # Gonka একটি chat-endpoint
    is_function_calling_model=True, # নেটিভ tool calling সমর্থিত
    context_window=200000,         # নেটওয়ার্ক মডেলের জন্য 200K
    max_tokens=8192,               # Gateway-এর মাধ্যমে আউটপুট সীমা
)

response = llm.complete("RAG কী তা তিনটি বাক্যে ব্যাখ্যা করো।")
print(response)

OpenAILike সম্পর্কে গুরুত্বপূর্ণ: অবশ্যই is_chat_model=True উল্লেখ করবেন — অন্যথায় LlamaIndex completion-endpoint-এ যাবে, যা আমাদের নেই। is_function_calling_model=True নেটিভ tool calls চালু করে। LlamaIndex যাতে সঠিকভাবে কনটেক্সট কাটতে পারে সেজন্য মডেল অনুযায়ী context_window সেট করুন।

উদাহরণ: ক্যোয়ারী ইঞ্জিন সহ একটি RAG-পাইপলাইন

LlamaIndex-এর ক্লাসিক সিনারিও হলো আপনার নথিপত্র (documents) ইন্ডেক্স করা এবং query_engine-এর মাধ্যমে সেগুলোতে কুয়েরি করা। গ্লোবাল LLM একবার Settings.llm-এর মাধ্যমে সেট করা হয়, এরপর পুরো পাইপলাইন স্বয়ংক্রিয়ভাবে Gonka ব্যবহার করে।

from llama_index.core import (
    VectorStoreIndex,
    SimpleDirectoryReader,
    Settings,
)
from llama_index.llms.openai_like import OpenAILike
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# 1. Gonka-এর মাধ্যমে LLM (একবার — গ্লোবালি)
Settings.llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-your-key",
    model="MiniMaxAI/MiniMax-M2.7",
    is_chat_model=True,
    context_window=200000,
    max_tokens=8192,
)

# 2. লোকাল এম্বেডিং (ফ্রি, কোনো OpenAI ছাড়া)
Settings.embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-small-en-v1.5"
)

# 3. ./data ফোল্ডার থেকে ডকুমেন্ট লোড এবং ইন্ডেক্স করা
documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)

# 4. নলেজ বেসে কুয়েরি
query_engine = index.as_query_engine()
response = query_engine.query("এই ডকুমেন্টটি কী নিয়ে?")
print(response)

এম্বেডিং সম্পর্কে গুরুত্বপূর্ণ সতর্কতা: ডিফল্টভাবে VectorStoreIndex OpenAI-এর এম্বেডিং (text-embedding-ada-002) ব্যবহার করে — এটি OpenAI-তে আলাদাভাবে টাকা দিয়ে কল করতে হয়, Gonka-তে নয়। OpenAI থেকে পুরোপুরি বেরিয়ে আসতে, Settings.embed_model-এর মাধ্যমে লোকাল এম্বেডিং মডেল সেট করুন (উপরের উদাহরণের মতো — HuggingFaceEmbedding, প্যাকেজ pip install llama-index-embeddings-huggingface)। তখন জেনারেশন হবে Gonka-এর মাধ্যমে এবং ভেক্টরাইজেশন হবে লোকালি ও ফ্রি।

খরচ: একটি RAG-পাইপলাইন রিকোয়েস্টে (সার্চ + জেনারেশন) প্রায় ২–৫K LLM টোকেন খরচ হয়। Gonka-এর মাধ্যমে এটি সেন্টেরও অনেক কম; যা OpenAI/Anthropic-এর তুলনায় ৩–৪ গুণ সাশ্রয়ী। প্রতিদিন হাজার হাজার রিকোয়েস্টের ক্ষেত্রে এই পার্থক্য প্রতি মাসে কয়েক হাজার ডলার সাশ্রয় করে।

RAG-ওয়ার্কলোডের খরচের তুলনা

একটি RAG অ্যাপ্লিকেশন মানেই ক্রমাগত রিকোয়েস্টের প্রবাহ: প্রতিটি ব্যবহারকারীর প্রশ্ন প্রায় ২–৫K LLM টোকেন খরচ করে (প্রশ্ন এবং পাওয়া কনটেক্সট মিলে)। বিভিন্ন প্রোভাইডারে এর খরচ কেমন হতে পারে তা দেখা যাক। JoinGonka Gateway ব্যবহার করে Gonka-এর মূল্য: ইনপুট ~$0.003/1M, আউটপুট ×3।

দৃশ্যপট	LLM টোকেন	OpenAI / Anthropic	JoinGonka Gonka
নলেজ বেসে একটি প্রশ্ন	~4K	$0.01 — $0.06	~$0.00002
সাপোর্ট চ্যাটবট (1K রিকোয়েস্ট/দিন)	~4M/দিন	$10 — $60 প্রতিদিন	~$0.019 প্রতিদিন
ইনডেক্সিং + Q&A (1M শব্দ)	~5M	$12 — $75	~$0.024
প্রোডাকশন-সার্ভিস, 50K রিকোয়েস্ট/মাস	~200M/মাস	$500 — $3,000 প্রতি মাসে	~$0.96 প্রতি মাসে

বিনামূল্যে ১০M টোকেনের মাধ্যমে আপনি পুরো RAG পাইপলাইন ডিবাগ করতে পারেন, টেস্ট ডেটা ইন্ডেক্স করতে পারেন এবং হাজার হাজার রিকোয়েস্ট চালাতেও কোনো খরচ হবে না। প্রোডাকশন স্কেলে, JoinGonka Gateway RAG-কে একটি অত্যন্ত ব্যয়বহুল সার্ভিস থেকে এমন একটি খরচে পরিণত করে যা প্রায় অদৃশ্য।

এজেন্ট, টুল কলিং এবং মডেল নির্বাচন

LlamaIndex শুধু নথিপত্র থেকে উত্তর দিতেই পারে না, বরং টুলস ব্যবহার করে এজেন্ট তৈরি করতেও সক্ষম। উভয় Gonka মডেল নেটিভ tool calling সাপোর্ট করে — এজেন্টরা টেক্সট পার্সিং ছাড়াই স্ট্রাকচার্ড উপায়ে ফাংশন কল করতে পারে। টুলের সাথে এশেন্টের উদাহরণ:

import asyncio
from llama_index.core.agent.workflow import FunctionAgent
from llama_index.llms.openai_like import OpenAILike

llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-your-key",
    model="MiniMaxAI/MiniMax-M2.7",
    is_chat_model=True,
    is_function_calling_model=True,
    context_window=200000,
    max_tokens=8192,
)

def multiply(a: float, b: float) -> float:
    """দুটি সংখ্যা গুণ করে।"""
    return a * b

agent = FunctionAgent(
    tools=[multiply],
    llm=llm,
    system_prompt="তুমি একজন সহায়ক সহকারী। হিসাবের জন্য টুল ব্যবহার করো।",
)

async def main():
    result = await agent.run("১২৩৪ কে ৫৬৭৮ দিয়ে গুণ করলে কত হয়?")
    print(result)

asyncio.run(main())

মডেল নির্বাচন (model ফিল্ড এবং সংশ্লিষ্ট context_window / max_tokens লিমিট):

মডেল (`model`)	কনটেক্সট	ম্যাক্স আউটপুট	কখন ব্যবহার করবেন
`moonshotai/Kimi-K2.6`	200K	8192	ডিফল্ট: শক্তিশালী লজিক, টুল কলিং, এজেন্ট
`MiniMaxAI/MiniMax-M2.7`	200K	8192	RAG, বিশাল কনটেক্সট, দীর্ঘ উত্তর

Gateway-এর মাধ্যমে max_tokens লিমিট সব নেটওয়ার্ক মডেলের জন্য ৮১৯২ পর্যন্ত। যদি নন-স্ট্রিমিং রিকোয়েস্টের জন্য max_tokens সেট করা না থাকে, তবে ডিফল্টভাবে ১৫০০ টোকেন পর্যন্ত রিটার্ন করবে — RAG-এর উত্তর এবং এজেন্টের কাজের জন্য এই ভ্যালু স্পষ্টভাবে সেট করুন।

TypeScript: LlamaIndex.TS-এর ক্ষেত্রেও একই পথ — @llamaindex/openai প্যাকেজের OpenAI ক্লাস baseURL এবং apiKey গ্রহণ করে (অথবা OPENAI_BASE_URL / OPENAI_API_KEY এনভায়রনমেন্ট ভেরিয়েবল পড়ে), তাই সেইম গেটওয়ে Node.js স্ট্যাকেও কানেক্ট করা যায়। যদি আপনি পাইথন ফ্রেমওয়ার্ক ব্যবহার করে AI অ্যাপ্লিকেশন তৈরি করেন, তবে LangChain গাইডটিও দেখতে পারেন।

LlamaIndex + Gonka = প্রোডাকশন-রেডি RAG এবং এজেন্ট, অত্যন্ত কম খরচে। OpenAILike (is_chat_model=True) ব্যবহার করে কানেক্ট করুন, ন্যাটিভ tool calling এবং লোকাল এমবেডিং সুবিধা নিন — OpenAI-এর $2.50–15 এর পরিবর্তে মাত্র $0.003/1M খরচ। পুরো পাইপলাইন ডিবাগ করার জন্য ১০M ফ্রি টোকেনই যথেষ্ট।

← Roo Code + Gonka AI — VS Code এ স্বায়ত্তশাসিত AI-এজেন্ট PydanticAI + Gonka — টাইপড এআই এজেন্ট নগণ্য খরচে →

আরও জানতে চান?

অন্যান্য বিভাগগুলি অন্বেষণ করুন অথবা এখনই GNK উপার্জন শুরু করুন।

10M বিনামূল্যে টোকেন পান →