Qwen3-235B: mô hình mà Gonka khai thác

Mạng Gonka không chỉ cho thuê GPU mà còn phục vụ các mô hình AI cho inference. Trong một thời gian dài, đây là mô hình Qwen3-235B-A22B-Instruct duy nhất, được phát triển bởi Alibaba Cloud, và vào tháng 5 năm 2026, Kimi K2.6 của Moonshot AI đã tham gia cùng. Chúng ta sẽ tìm hiểu mô hình này là gì, tại sao Gonka lại chọn nó và cách thử nó thông qua Cổng API của chúng tôi.

Qwen3-235B là gì

Qwen3-235B-A22B-Instruct-2507-FP8 là một mô hình ngôn ngữ lớn (LLM) thuộc dòng Qwen3, được phát triển bởi nhóm Qwen tại Alibaba Cloud. Tên đầy đủ được giải thích như sau: Qwen3 — thế hệ thứ ba của dòng, 235B — tổng cộng 235 tỷ tham số, A22B — 22 tỷ tham số hoạt động cho mỗi yêu cầu, Instruct — phiên bản được huấn luyện để làm theo hướng dẫn, 2507 — phát hành tháng 7 năm 2025, FP8 — lượng tử hóa 8 bit để tối ưu hóa bộ nhớ.

Đặc điểm kiến trúc chính là MoE (Mixture of Experts). Không giống như các mô hình “dense” (GPT-5.4, Claude Sonnet 4.5), nơi mỗi token đi qua tất cả các tham số, mô hình MoE chỉ kích hoạt một tập hợp con “chuyên gia” — các khối mạng thần kinh chuyên biệt — cho mỗi yêu cầu. Trong trường hợp Qwen3-235B, từ 235 tỷ tham số, chỉ 22 tỷ được kích hoạt cho mỗi token — dưới 10%. Điều này mang lại chất lượng ngang với các mô hình có hơn 200 tỷ tham số với chi phí tính toán của một mô hình 22 tỷ tham số.

Trên thực tế, điều này có nghĩa là: mô hình thông minh hơn những gì người ta có thể mong đợi từ tốc độ của nó. Nó xử lý các yêu cầu nhanh hơn đáng kể so với các mô hình dense có chất lượng tương đương, trong khi yêu cầu ít VRAM hơn nhiều cho suy luận. Đó là lý do tại sao MoE trở thành kiến trúc thống trị cho các mô hình lớn nhất từ năm 2025 đến 2026.

Cửa sổ ngữ cảnh của Qwen3-235B là 131.072 token (~100.000 từ) — đủ để phân tích toàn bộ sách, cơ sở mã hoặc các tài liệu pháp lý dài trong một yêu cầu. Mô hình hỗ trợ 119 ngôn ngữ, bao gồm tiếng Nga, tiếng Anh, tiếng Trung, tiếng Ả Rập, tiếng Hindi và hàng chục ngôn ngữ khác — điều này làm cho nó trở thành một trong những mô hình đa ngôn ngữ nhất trên thị trường.

Đặc điểm và điểm chuẩn

Qwen3-235B cạnh tranh với các mô hình đóng và mở lớn nhất. Dưới đây là so sánh các đặc điểm chính:

Mô hình	Tham số	Ngữ cảnh	MoE	Mã nguồn mở	Giá (cho 1M token)
Qwen3-235B (qua JoinGonka)	235B (22B hoạt động)	131K	Có	Có (Apache 2.0)	$0.001
GPT-5.4 (OpenAI)	~1.8T (ước tính)	128K	Có (được cho là)	Không	$2.50
Claude Sonnet 4.5 (Anthropic)	Chưa tiết lộ	200K	Không (được cho là)	Không	$3.00
Llama 4 Maverick (Meta)	400B (17B hoạt động)	1M	Có	Có (Giấy phép Llama)	$0.20+ (hosting)
DeepSeek-R1 (DeepSeek)	671B (37B hoạt động)	128K	Có	Có (MIT)	$0.55

Qwen3-235B cho thấy mức chất lượng tương đương với GPT-5.4 và Claude Sonnet 4.5 trên hầu hết các điểm chuẩn, trong khi chi phí của nó thông qua JoinGonka Gateway rẻ hơn 2.500 lần so với GPT-5.4. Điều này có thể thực hiện được nhờ hai yếu tố: kiến trúc MoE giảm chi phí tính toán, và mạng phi tập trung Gonka loại bỏ biên lợi nhuận của các trung tâm dữ liệu.

Trên các điểm chuẩn MMLU-Pro, HumanEval, MATH-500 và GSM8K, mô hình xếp trong top ba mô hình mã nguồn mở tốt nhất, chỉ thua DeepSeek-R1 trong các tác vụ lý luận toán học. Trong các tác vụ tạo mã, dịch và làm theo hướng dẫn, Qwen3-235B liên tục vượt trội hơn Llama 4 Maverick và tương đương với Claude Sonnet 4.5.

Gonka sử dụng Qwen3-235B như thế nào

Mô hình Qwen3-235B hoạt động trong mạng Gonka một cách phân tán — thông qua giao thức DiLoCo, được điều chỉnh cho inference. Mô hình đầy đủ ở định dạng FP8 yêu cầu khoảng 640 GB bộ nhớ video (VRAM), không thể chứa trên một GPU — ngay cả H100 80GB hoặc H200 141GB cũng không đủ. Do đó, mô hình được chia theo các lớp (tensor parallelism + pipeline parallelism) giữa nhiều ML-node.

Trên thực tế, Qwen3-235B hoạt động trên một cụm gồm 8—16 node GPU, mỗi node có ít nhất 40 GB VRAM. Các Transfer Agent định tuyến yêu cầu đến cụm cần thiết, vLLM trên mỗi node xử lý phần mô hình của nó, kết quả được tổng hợp và trả về cho người dùng. Toàn bộ quá trình mất hàng trăm mili giây — người dùng không cảm thấy rằng yêu cầu của họ được xử lý bởi hàng chục GPU ở các điểm khác nhau trên thế giới.

Một chi tiết kỹ thuật quan trọng: Gonka sử dụng vLLM làm công cụ để phục vụ. vLLM là một dự án mã nguồn mở, cung cấp khả năng tạo văn bản hiệu suất cao thông qua PagedAttention — một thuật toán tối ưu hóa việc sử dụng bộ nhớ video khi xử lý song song nhiều yêu cầu. Điều này cho phép mạng phục vụ hàng nghìn người dùng đồng thời mà không làm giảm chất lượng.

Mô hình hỗ trợ gọi công cụ gốc — gọi các hàm và công cụ trực tiếp từ phản hồi của mô hình. Khả năng này đã được thêm vào Gonka thông qua PR #767 với ngưỡng 0,958 để xác định các lệnh gọi công cụ. Điều này có nghĩa là các nhà phát triển có thể xây dựng các tác nhân AI tương tác với các API bên ngoài, cơ sở dữ liệu và công cụ — tất cả thông qua một yêu cầu duy nhất tới Qwen3-235B.

Mạng Gonka hiện tại có hơn 4.000 GPU (H100, H200, A100, RTX 4090 và các loại khác), được hợp nhất thành hơn 120 ML-node. Đây là một trong những mạng GPU phân tán lớn nhất thế giới cho suy luận AI — và tất cả sức mạnh này được hướng tới việc phục vụ Qwen3-235B.

Cách trải nghiệm Qwen3-235B

Cách đơn giản nhất để trải nghiệm Qwen3-235B là thông qua JoinGonka API Gateway. Gateway cung cấp API tương thích với OpenAI, có nghĩa là: bất kỳ mã nào được viết cho OpenAI đều hoạt động với Qwen3-235B mà không cần thay đổi — chỉ cần thay thế URL và khóa API.

Ví dụ yêu cầu:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "Giải thích kiến trúc MoE"}]
  }'

Chi phí: $0.001 cho 1 triệu token — rẻ hơn 2.500 lần so với GPT-5.4 ($2.50/1M) và rẻ hơn 3.000 lần so với Claude Sonnet 4.5 ($3.00/1M). Khi đăng ký, bạn nhận được 10 triệu token miễn phí để thử nghiệm.

Gateway tương thích với các công cụ phát triển phổ biến: Khởi động nhanh mô tả cách kết nối thông qua Python, Node.js và curl. Nó cũng hỗ trợ tích hợp IDE — Cursor, Continue, Cline, Aider và Claude Code — và các framework tác nhân AI: LangChain, n8n, LibreChat, Open WebUI.

Để bắt đầu nhanh:

Đăng ký tại gate.joingonka.ai (kết nối ví hoặc tạo ví mới)
Nhận khóa API trong Bảng điều khiển
Thay thế api.openai.com bằng gate.joingonka.ai/api trong mã của bạn
Sử dụng mô hình qwen3-235b-a22b

Qwen3-235B thông qua JoinGonka — đó là AI cấp doanh nghiệp với giá của một dự án nghiệp dư.

Qwen3-235B-A22B là mô hình MoE với 235 tỷ tham số từ Alibaba Cloud, được mạng Gonka sử dụng để suy luận AI phi tập trung. Nhờ kiến trúc MoE, nó mang lại chất lượng ngang với GPT-5.4 với chi phí thấp hơn 2.500 lần. Thông qua JoinGonka Gateway, mô hình có sẵn qua API tương thích với OpenAI với giá 0.001 USD/1M token.

← Chọn GPU cho Gonka: khuyến nghị về phần cứng Kimi K2.6: Mô hình thứ hai của mạng Gonka →

Muốn tìm hiểu thêm?

Khám phá các phần khác hoặc bắt đầu kiếm GNK ngay bây giờ.

Thử Qwen3-235B →