ส่วนของฐานความรู้ ▾

สำหรับนักลงทุน

เครื่องมือ

เครื่องมือ

LlamaIndex + Gonka AI — แอป RAG ราคาถูก

LlamaIndex — เป็นเฟรมเวิร์กชั้นนำสำหรับการสร้างแอปพลิเคชัน RAG และเอเจนต์ AI บน Python (มีเวอร์ชัน TypeScript LlamaIndex.TS ด้วย) มันช่วยจัดการกับการโหลดเอกสาร, การแบ่งเป็นส่วนเล็กๆ, การทำดัชนี, การค้นหาด้วยเวกเตอร์ และการประกอบคำตอบ — คุณอธิบายข้อมูล และ LlamaIndex จะเปลี่ยนข้อมูลดังกล่าวให้เป็นระบบตอบคำถามโดยใช้ LLM ใดๆ ก็ตาม

ปัญหาเดียวคือค่าใช้จ่ายในการอนุมาน RAG โดยธรรมชาติแล้วมีประสิทธิภาพสูง: สำหรับทุกคำถามที่ส่งไปยังโมเดล จะมีคำขอและส่วนประกอบบริบทที่พบหลายส่วน และสำหรับการจัดทำดัชนีคอลเลกชันขนาดใหญ่ จะมีการเพิ่ม embeddings ที่ระดับการผลิต นี่คือคำขอนับพันต่อวัน ด้วย OpenAI ($2.50–15 ต่อ 1M โทเคน) หรือ Anthropic ($3–15 ต่อ 1M) แม้แต่บริการตอบคำถามที่เรียบง่ายก็สามารถกลายเป็นค่าใช้จ่ายหลายหมื่นดอลลาร์ต่อเดือนได้

LlamaIndex ทำงานร่วมกับ endpoint ที่เข้ากันได้กับ OpenAI ใดๆ โดยใช้คลาส OpenAILike ซึ่งหมายความว่า JoinGonka Gateway สามารถเชื่อมต่อได้ด้วยโค้ดเพียงไม่กี่บรรทัด — โดยไม่ต้องใช้ผู้ให้บริการที่กำหนดเองหรือแพทช์ ผลลัพธ์: ระบบ RAG เดียวกันทำงานในราคา $0.0005/1M โทเคนสำหรับอินพุต (เอาต์พุต ×3) ผ่าน เครือข่ายกระจายอำนาจ Gonka — ถูกกว่า API บนคลาวด์หลายร้อยเท่าหรือหลายพันเท่า

เริ่มต้นอย่างรวดเร็ว: การเชื่อมต่อผ่าน OpenAILike

API-คีย์ JoinGonka: ลงทะเบียนที่ gate.joingonka.ai/register — เราให้ 10M โทเคนฟรี เมื่อเริ่มต้น — และสร้างคีย์ jg-xxx ใน Dashboard

การติดตั้ง:

pip install llama-index llama-index-llms-openai-like

สำหรับ API ที่เข้ากันได้กับ OpenAI แบบกำหนดเอง LlamaIndex มีคลาส OpenAILike จากแพ็คเกจ llama_index.llms.openai_like ตัวอย่างคำขอขั้นต่ำไปยัง Gonka:

from llama_index.llms.openai_like import OpenAILike

llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-your-key",
    model="Qwen/Qwen3-235B-A22B-Instruct-2507-FP8",
    is_chat_model=True,            # Gonka — it's a chat endpoint
    is_function_calling_model=True, # native tool calling is supported
    context_window=131072,         # 128K for Qwen3-235B
    max_tokens=8192,               # output ceiling through Gateway (Qwen)
)

response = llm.complete("อธิบายว่า RAG คืออะไร ในสามประโยค")
print(response)

สำคัญเกี่ยวกับ OpenAILike: ต้องระบุ is_chat_model=True — มิฉะนั้น LlamaIndex จะเข้าสู่ completion-endpoint ซึ่งเราไม่มี is_function_calling_model=True เปิดใช้งาน native tool calls กำหนด context_window ตามโมเดลเพื่อให้ LlamaIndex ตัดบริบทได้อย่างถูกต้อง

ตัวอย่าง: RAG-pipeline พร้อม query engine

สถานการณ์คลาสสิกของ LlamaIndex คือการสร้างดัชนีจากเอกสารของคุณและสอบถามผ่าน query_engine LLM ทั่วโลกถูกกำหนดเพียงครั้งเดียวผ่าน Settings.llm จากนั้น pipeline ทั้งหมดจะใช้ Gonka โดยอัตโนมัติ

from llama_index.core import (
    VectorStoreIndex,
    SimpleDirectoryReader,
    Settings,
)
from llama_index.llms.openai_like import OpenAILike
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# 1. LLM ผ่าน Gonka (ครั้งเดียว — ทั่วโลก)
Settings.llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-your-key",
    model="Qwen/Qwen3-235B-A22B-Instruct-2507-FP8",
    is_chat_model=True,
    context_window=131072,
    max_tokens=8192,
)

# 2. Embeddings ภายใน (ฟรี, ไม่มี OpenAI)
Settings.embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-small-en-v1.5"
)

# 3. โหลดและทำดัชนีเอกสารจากโฟลเดอร์ ./data
documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)

# 4. สอบถามฐานความรู้
query_engine = index.as_query_engine()
response = query_engine.query("เอกสารนี้เกี่ยวกับอะไร?")
print(response)

ข้อสำคัญเกี่ยวกับ embeddings: โดยค่าเริ่มต้น VectorStoreIndex ใช้ embeddings ของ OpenAI (text-embedding-ada-002) — ซึ่งเป็นการเรียกใช้ OpenAI ที่มีค่าใช้จ่ายแยกต่างหาก ไม่ใช่ Gonka เพื่อหลีกเลี่ยง OpenAI ทั้งหมด ให้กำหนดโมเดล embeddings ภายในผ่าน Settings.embed_model (ตามตัวอย่างด้านบน — HuggingFaceEmbedding, แพ็คเกจ pip install llama-index-embeddings-huggingface) จากนั้นการสร้างจะดำเนินการผ่าน Gonka และการแปลงเป็นเวกเตอร์จะดำเนินการภายในเครื่องและฟรี

ค่าใช้จ่าย: คำขอ RAG-pipeline หนึ่งครั้ง (ค้นหา + สร้าง) ใช้ LLM tokens ประมาณ ~2–5K ผ่าน Gonka นี่คือเศษเสี้ยวของเซ็นต์; ผ่าน OpenAI/Anthropic — แพงกว่า 3–4 เท่า ที่ปริมาณคำขอหลายพันครั้งต่อวัน ความแตกต่างนี้จะกลายเป็นเงินออมหลายหมื่นดอลลาร์ต่อเดือน

การเปรียบเทียบค่าใช้จ่ายของ RAG-workload

แอปพลิเคชัน RAG ไม่ใช่แค่แชทครั้งเดียว แต่เป็นกระแสของคำขออย่างต่อเนื่อง: ทุกคำถามของผู้ใช้ดึง LLM โทเคนประมาณ 2–5K (คำถามเองและส่วนบริบทที่พบ) เราจะคำนวณปริมาณงานทั่วไปและค่าใช้จ่ายในผู้ให้บริการต่างๆ ราคา Gonka ผ่าน JoinGonka Gateway: อินพุต ~$0.0005/1M, เอาต์พุต ×3

สถานการณ์LLM โทเคนOpenAI / AnthropicJoinGonka Gonka
หนึ่งคำถามไปยังฐานความรู้~4K$0.01 — $0.06~$0.000005
แชทบอทสนับสนุน (1K คำขอ/วัน)~4M/วัน$10 — $60 ต่อวัน~$0.005 ต่อวัน
การจัดทำดัชนี + Q&A ของเอกสาร (1M คำ)~5M$12 — $75~$0.006
บริการการผลิต, 50K คำขอ/เดือน~200M/เดือน$500 — $3,000 ต่อเดือน~$0.25 ต่อเดือน

ด้วย 10M โทเคนฟรี คุณสามารถดีบัก RAG-pipeline ทั้งหมด, สร้างดัชนีชุดทดสอบ และเรียกใช้คำขอนับพัน — และไม่ต้องใช้เงินแม้แต่เซ็นต์เดียว ที่ปริมาณการผลิต JoinGonka Gateway เปลี่ยน RAG จากบริการราคาแพงให้กลายเป็นรายการค่าใช้จ่ายที่คุณอาจไม่สังเกตเห็น

เอเจนต์, การเรียกใช้เครื่องมือ และการเลือกโมเดล

LlamaIndex สามารถทำได้ไม่เพียงแค่ตอบตามเอกสารเท่านั้น แต่ยังสร้างเอเจนต์พร้อมเครื่องมือด้วย ทั้งสามโมเดลของ Gonka รองรับ native tool calling — เอเจนต์เรียกใช้ฟังก์ชันอย่างมีโครงสร้าง โดยไม่ต้องแยกวิเคราะห์ข้อความ ตัวอย่างเอเจนต์พร้อมเครื่องมือ:

import asyncio
from llama_index.core.agent.workflow import FunctionAgent
from llama_index.llms.openai_like import OpenAILike

llm = OpenAILike(
    api_base="https://gate.joingonka.ai/v1",
    api_key="jg-your-key",
    model="Qwen/Qwen3-235B-A22B-Instruct-2507-FP8",
    is_chat_model=True,
    is_function_calling_model=True,
    context_window=131072,
    max_tokens=8192,
)

def multiply(a: float, b: float) -> float:
    """คูณเลขสองตัว"""
    return a * b

agent = FunctionAgent(
    tools=[multiply],
    llm=llm,
    system_prompt="คุณเป็นผู้ช่วยที่เป็นประโยชน์ ใช้เครื่องมือสำหรับการคำนวณ",
)

async def main():
    result = await agent.run("1234 คูณ 5678 ได้เท่าไร?")
    print(result)

asyncio.run(main())

การเลือกโมเดล (ช่อง model และขีดจำกัดที่เกี่ยวข้อง context_window / max_tokens):

โมเดล (model)บริบทเอาต์พุตสูงสุดเมื่อใดที่ควรใช้
Qwen/Qwen3-235B-A22B-Instruct-2507-FP8128K8192ค่าเริ่มต้น: RAG, เอเจนต์, คำตอบยาวๆ
moonshotai/Kimi-K2.6128K3072การให้เหตุผลและการเรียกใช้เครื่องมือที่แข็งแกร่ง
MiniMaxAI/MiniMax-M2.7128K4096ทางเลือกสำหรับงานเอเจนต์

ขีดจำกัด max_tokens ผ่าน Gateway — สูงสุด 8192 บนโมเดล Qwen3; สำหรับ Kimi และ MiniMax ระบุ 3072 และ 4096 ตามลำดับ หากไม่ได้กำหนด max_tokens สำหรับคำขอที่ไม่ใช่สตรีม โดยค่าเริ่มต้นจะส่งคืน 1500 โทเคน — สำหรับคำตอบ RAG และขั้นตอนของเอเจนต์ ให้ระบุค่าอย่างชัดเจน

TypeScript: สำหรับ LlamaIndex.TS มีเส้นทางที่เหมือนกัน — คลาส OpenAI จากแพ็คเกจ @llamaindex/openai รับ baseURL และ apiKey (หรืออ่านตัวแปร OPENAI_BASE_URL / OPENAI_API_KEY) ดังนั้น Gateway เดียวกันจึงเชื่อมต่อในสแต็ก Node.js ด้วย หากคุณกำลังสร้างแอปพลิเคชัน AI บนเฟรมเวิร์ก Python โปรดดูคู่มือเกี่ยวกับ LangChain ด้วย

LlamaIndex + Gonka = RAG และเอเจนต์ที่พร้อมสำหรับการผลิตในราคาเพียงเศษเสี้ยว การเชื่อมต่อผ่าน OpenAILike (is_chat_model=True), native tool calling, embeddings ภายใน — อินพุต $0.0005/1M แทนที่จะเป็น $2.50–15 จาก OpenAI 10M โทเคนฟรีก็เพียงพอที่จะดีบัก pipeline ทั้งหมด

ต้องการเรียนรู้เพิ่มเติมหรือไม่?

สำรวจส่วนอื่นๆ หรือเริ่มรับ GNK ทันที

รับ 10M โทเคนฟรี →