Bilgi Tabanı Bölümleri ▾

Araçlar

Araçlar

LlamaIndex + Gonka AI — RAG uygulamaları kuruşa

LlamaIndex, Python'da RAG uygulamaları ve yapay zeka ajanları oluşturmak için önde gelen çerçevedir (ayrıca bir TypeScript sürümü LlamaIndex.TS de vardır). Belge yükleme, parçalama, indeksleme, vektör arama ve yanıt oluşturma işlemlerini üstlenir - verileri tanımlarsınız ve LlamaIndex onları herhangi bir LLM üzerinde bir soru-cevap sistemine dönüştürür.

Tek sorun çıkarım maliyetidir. RAG doğası gereği açgözlüdür: her soru için modele bir istek ve birkaç bulunan bağlam parçası gönderilir ve büyük koleksiyonları indekslemek için gömmeler eklenir. Üretim hacimlerinde bu günde binlerce istek anlamına gelir. OpenAI (1M token için 2,50-15 dolar) veya Anthropic (1M için 3-15 dolar) ile mütevazı bir soru-cevap hizmeti bile ayda on binlerce dolara dönüşür.

LlamaIndex, OpenAILike sınıfı aracılığıyla herhangi bir OpenAI uyumlu uç nokta ile yerel olarak çalışır. Bu, JoinGonka Gateway'in birkaç satır kodla bağlanabileceği anlamına gelir - özel sağlayıcılar ve yamalar olmadan. Sonuç: aynı RAG sistemi, merkeziyetsiz Gonka ağı aracılığıyla 1M token giriş başına 0,0005 dolar (çıkış ×3) karşılığında çalışır - bulut API'lerinden yüzlerce ve binlerce kat daha ucuzdur.

Hızlı Başlangıç: OpenAILike aracılığıyla bağlantı

JoinGonka API Anahtarı: gate.joingonka.ai/register adresine kaydolun - başlangıçta 10M ücretsiz token veriyoruz - ve Kontrol Paneli'nde jg-xxx anahtarını oluşturun.

Kurulum:

pip install llama-index llama-index-llms-openai-like

Herhangi bir OpenAI uyumlu API için LlamaIndex, llama_index.llms.openai_like paketinden OpenAILike sınıfını sağlar. Gonka'ya minimum istek örneği:

from llama_index.llms.openai_like import OpenAILike

llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-anahtarınız",
    model="Qwen/Qwen3-235B-A22B-Instruct-2507-FP8",
    is_chat_model=True,            # Gonka bir sohbet uç noktasıdır
    is_function_calling_model=True, # yerel araç çağırma desteklenir
    context_window=131072,         # Qwen3-235B'de 128K
    max_tokens=8192,               # Gateway aracılığıyla çıkış sınırı (Qwen)
)

response = llm.complete("RAG'ın ne olduğunu üç cümlede açıklayın.")
print(response)

OpenAILike hakkında önemli: is_chat_model=True'yu mutlaka belirtin - aksi takdirde LlamaIndex, bizim sahip olmadığımız bir tamamlama uç noktasına gidecektir. is_function_calling_model=True yerel araç çağrılarını etkinleştirir. LlamaIndex'in bağlamı doğru bir şekilde dilimlemesi için modeli context_window'a göre ayarlayın.

Örnek: Sorgu motorlu RAG ardışık düzeni

LlamaIndex'in klasik senaryosu, belgeleriniz üzerinde bir indeks ve query_engine aracılığıyla bu belgeye sorgular göndermektir. Genel LLM, Settings.llm aracılığıyla bir kez ayarlanır, sonrasında tüm ardışık düzen otomatik olarak Gonka'yı kullanır.

from llama_index.core import (
    VectorStoreIndex,
    SimpleDirectoryReader,
    Settings,
)
from llama_index.llms.openai_like import OpenAILike
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# 1. Gonka aracılığıyla LLM (bir kez - global olarak)
Settings.llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-anahtarınız",
    model="Qwen/Qwen3-235B-A22B-Instruct-2507-FP8",
    is_chat_model=True,
    context_window=131072,
    max_tokens=8192,
)

# 2. Yerel gömmeler (ücretsiz, OpenAI olmadan)
Settings.embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-small-en-v1.5"
)

# 3. ./data klasöründen belgeleri yükleme ve indeksleme
documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)

# 4. Bilgi tabanına sorgu
query_engine = index.as_query_engine()
response = query_engine.query("Bu belge ne hakkında?")
print(response)

Gömme hakkında kritik bir nüans: Varsayılan olarak VectorStoreIndex, OpenAI gömmelerini (text-embedding-ada-002) kullanır - bunlar OpenAI'ye yapılan ayrı ücretli çağrılardır, Gonka'ya değil. OpenAI'den tamamen çıkmak için Settings.embed_model aracılığıyla yerel bir gömme modeli ayarlayın (yukarıdaki örnekte olduğu gibi - HuggingFaceEmbedding, pip install llama-index-embeddings-huggingface paketi). Ardından üretim Gonka üzerinden gerçekleşir ve vektör oluşturma yerel ve ücretsizdir.

Maliyet: Bir RAG ardışık düzeni isteği (arama + üretim) ~2-5K LLM tokeni tüketir. Gonka aracılığıyla bu kuruşun birkaç kesridir; OpenAI/Anthropic aracılığıyla 3-4 kat daha pahalıdır. Günde binlerce istek akışında, fark ayda on binlerce dolarlık tasarrufa dönüşür.

RAG yük maliyetlerinin karşılaştırılması

RAG uygulaması, tek seferlik bir sohbet değil, sürekli bir istek akışıdır: her kullanıcı sorusu, 2-5K LLM tokeni (sorunun kendisi artı bulunan bağlam parçacıkları) tüketir. Tipik hacimleri ve bunların farklı sağlayıcılarda ne kadara mal olduğunu hesaplayalım. JoinGonka Gateway aracılığıyla Gonka fiyatları: giriş ~0,0005$/1M, çıkış yaklaşık üç kat daha pahalı.

SenaryoLLM TokenlarıOpenAI / AnthropicJoinGonka Gonka
Bilgi tabanına bir soru~4K0,01 — 0,06 dolar~0,000005 dolar
Destek sohbet robotu (1K istek/gün)~4M/gün10 — 60 dolar/gün~0,005 dolar/gün
Metin koleksiyonu dizinleme + S&C (1M kelime)~5M12 — 75 dolar~0,006 dolar
Üretim hizmeti, 50K istek/ay~200M/ay500 — 3.000 dolar/ay~0,25 dolar/ay

Ücretsiz 10M token ile tüm RAG ardışık düzenini hata ayıklayabilir, test koleksiyonunu indeksleyebilir ve binlerce istek çalıştırabilirsiniz - ve hiçbir sent harcamadan. Üretim hacimlerinde JoinGonka Gateway, RAG'i pahalı bir hizmetten hiç fark edilmeyen bir gider kalemine dönüştürür.

Aracılar, araç çağırma ve model seçimi

LlamaIndex sadece belgelere göre yanıt vermekle kalmaz, aynı zamanda araçlarla ajanlar da oluşturabilir. Üç Gonka modelinin tümü yerel araç çağırmayı destekler - ajanlar işlevleri yapılandırılmış bir şekilde, metin ayrıştırma olmadan çağırır. Araçlı bir ajan örneği:

import asyncio
from llama_index.core.agent.workflow import FunctionAgent
from llama_index.llms.openai_like import OpenAILike

llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-anahtarınız",
    model="Qwen/Qwen3-235B-A22B-Instruct-2507-FP8",
    is_chat_model=True,
    is_function_calling_model=True,
    context_window=131072,
    max_tokens=8192,
)

def multiply(a: float, b: float) -> float:
    """İki sayıyı çarpar."""
    return a * b

agent = FunctionAgent(
    tools=[multiply],
    llm=llm,
    system_prompt="Faydalı bir asistansın. Hesaplamalar için araçları kullan.",
)

async def main():
    result = await agent.run("1234 çarpı 5678 kaç eder?")
    print(result)

asyncio.run(main())

Model seçimi (model alanı ve karşılık gelen context_window / max_tokens limitleri):

Model (model)BağlamMaks. ÇıkışNe zaman kullanılır
Qwen/Qwen3-235B-A22B-Instruct-2507-FP8128K8192Varsayılan: RAG, ajanlar, uzun yanıtlar
moonshotai/Kimi-K2.6128K3072Güçlü akıl yürütme ve araç çağırma
MiniMaxAI/MiniMax-M2.7128K4096Ajan görevleri için alternatif

Gateway aracılığıyla max_tokens sınırı - Qwen3 modelinde 8192'ye kadar; Kimi ve MiniMax için sırasıyla 3072 ve 4096 belirtin. Akış olmayan bir istek için max_tokens belirtilmezse, varsayılan olarak 1500 tokene kadar geri dönülür - RAG yanıtları ve ajan adımları için değeri açıkça belirtin.

TypeScript: LlamaIndex.TS için benzer bir yol vardır - @llamaindex/openai paketindeki OpenAI sınıfı baseURL ve apiKey'yi (veya OPENAI_BASE_URL / OPENAI_API_KEY değişkenlerini okur) kabul eder, bu nedenle aynı Gateway Node.js yığınında da bağlanır. Python çerçevelerinde yapay zeka uygulamaları geliştiriyorsanız, LangChain kılavuzuna da bakın.

LlamaIndex + Gonka = üretimde kullanıma hazır RAG ve ajanlar kuruşa. OpenAILike (is_chat_model=True) aracılığıyla bağlanma, yerel araç çağırma, yerel gömmeler - OpenAI'de 2,50-15 dolar yerine giriş için 0,0005$/1M dolar. Tüm ardışık düzeni hata ayıklamak için 10M ücretsiz token yeterlidir.

Daha fazla bilgi edinmek ister misiniz?

Diğer bölümleri keşfedin veya şimdi GNK kazanmaya başlayın.

10 milyon ücretsiz token alın →