Qwen3-235B: Gonka가 채굴하는 모델

Gonka 네트워크는 단순히 GPU를 임대하는 것이 아니라 AI 모델 추론을 서비스합니다. 오랫동안 Alibaba Cloud가 개발한 Qwen3-235B-A22B-Instruct가 유일한 Qwen3 모델이었지만, 2026년 5월에는 Moonshot AI의 Kimi K2.6이 추가되었습니다. 이 모델이 무엇인지, Gonka가 왜 이 모델을 선택했는지, 그리고 우리의 API Gateway를 통해 어떻게 이 모델을 시도해 볼 수 있는지 알아보겠습니다.

Qwen3-235B란 무엇인가

Qwen3-235B-A22B-Instruct-2507-FP8은 Qwen3 시리즈의 대규모 언어 모델(LLM)로, Alibaba Cloud의 Qwen 팀이 개발했습니다. 전체 이름은 Qwen3 — 3세대, 235B — 총 235억 매개변수, A22B — 각 요청당 22억 활성화 매개변수, Instruct — 지시를 따르도록 훈련된 버전, 2507 — 2025년 7월 릴리스, FP8 — 메모리 최적화를 위한 8비트 양자화를 의미합니다.

핵심 아키텍처적 특징은 MoE(Mixture of Experts)입니다. 모든 토큰이 모든 매개변수를 통과하는 'dense' 모델(GPT-5.4, Claude Sonnet 4.5)과 달리, MoE 모델은 각 요청에 대해 '전문가' 서브셋, 즉 신경망의 특수 블록만 활성화합니다. Qwen3-235B의 경우 2350억 매개변수 중 각 토큰에 대해 220억 매개변수만 활성화됩니다. 이는 10% 미만입니다. 이는 220억 매개변수 모델의 컴퓨팅 비용으로 2000억 이상의 매개변수 모델과 동일한 수준의 품질을 제공합니다.

실제로 이는 모델이 예상보다 훨씬 빠르면서도 더 높은 품질을 제공한다는 것을 의미합니다. 유사한 품질의 dense 모델보다 요청을 훨씬 빠르게 처리하며, 추론에 필요한 VRAM 양도 훨씬 적습니다. 이것이 MoE가 2025-2026년 가장 큰 모델의 지배적인 아키텍처가 된 이유입니다.

Qwen3-235B의 컨텍스트 창은 131,072 토큰(약 100,000 단어)입니다. 이는 한 번의 요청으로 전체 책, 코드 베이스 또는 긴 법률 문서를 분석하기에 충분합니다. 이 모델은 러시아어, 영어, 중국어, 아랍어, 힌디어 등 119개 언어를 지원하므로 시장에서 가장 다국어 모델 중 하나입니다.

특성 및 벤치마크

Qwen3-235B는 가장 큰 폐쇄형 및 오픈 소스 모델과 경쟁합니다. 다음은 주요 특성 비교입니다:

모델	매개변수	컨텍스트	MoE	오픈 소스	가격 (1M 토큰당)
Qwen3-235B (JoinGonka를 통해)	235B (22B 활성)	131K	예	예 (Apache 2.0)	$0.001
GPT-5.4 (OpenAI)	~1.8T (추정)	128K	예 (추정)	아니요	$2.50
Claude Sonnet 4.5 (Anthropic)	미공개	200K	아니요 (추정)	아니요	$3.00
Llama 4 Maverick (Meta)	400B (17B 활성)	1M	예	예 (Llama License)	$0.20+ (호스팅)
DeepSeek-R1 (DeepSeek)	671B (37B 활성)	128K	예	예 (MIT)	$0.55

Qwen3-235B는 대부분의 벤치마크에서 GPT-5.4 및 Claude Sonnet 4.5와 필적하는 품질 수준을 보여주며, JoinGonka Gateway를 통한 비용은 GPT-5.4보다 2,500배 저렴합니다. 이는 MoE 아키텍처가 컴퓨팅 비용을 줄이고, 분산형 Gonka 네트워크가 데이터 센터 마진을 제거하기 때문입니다.

MMLU-Pro, HumanEval, MATH-500 및 GSM8K 벤치마크에서 이 모델은 수학적 추론(reasoning) 작업에서 DeepSeek-R1에만 뒤처지며 상위 3위 안에 드는 오픈 소스 모델입니다. 코드 생성, 번역 및 지시 따르기 작업에서 Qwen3-235B는 Llama 4 Maverick을 꾸준히 능가하며 Claude Sonnet 4.5와 필적합니다.

Gonka는 Qwen3-235B를 어떻게 활용하는가

Qwen3-235B 모델은 Gonka 네트워크에서 추론에 맞게 조정된 DiLoCo 프로토콜을 통해 분산 방식으로 작동합니다. FP8 형식의 전체 모델은 약 640GB의 비디오 메모리(VRAM)를 필요로 하므로, H100 80GB 또는 H200 141GB와 같은 단일 GPU에는 장착할 수 없습니다. 따라서 모델은 여러 ML 노드 간에 계층별(tensor parallelism + pipeline parallelism)로 분할됩니다.

실제로 Qwen3-235B는 최소 40GB VRAM을 가진 8~16개의 GPU 노드 클러스터에서 작동합니다. Transfer Agents는 요청을 올바른 클러스터로 라우팅하고, 각 노드의 vLLM은 모델의 자체 부분을 처리하며, 결과는 집계되어 사용자에게 반환됩니다. 전체 프로세스는 수백 밀리초가 소요되며, 사용자는 자신의 요청이 지구의 여러 지점에 있는 수십 개의 GPU에 의해 처리된다는 것을 느끼지 못합니다.

중요한 기술적 세부사항: Gonka는 서빙 엔진으로 vLLM을 사용합니다. vLLM은 PagedAttention(여러 요청을 병렬로 처리할 때 비디오 메모리 사용을 최적화하는 알고리즘)을 통해 고성능 텍스트 생성을 제공하는 오픈 소스 프로젝트입니다. 이를 통해 네트워크는 품질 저하 없이 수천 명의 동시 사용자를 처리할 수 있습니다.

이 모델은 네이티브 도구 호출(tool calling)을 지원합니다. 모델 응답에서 직접 함수 및 도구를 호출할 수 있습니다. 이 기능은 도구 호출을 식별하기 위한 0.958 임계값을 가진 PR #767을 통해 Gonka에 추가되었습니다. 즉, 개발자는 Qwen3-235B에 대한 단일 요청을 통해 외부 API, 데이터베이스 및 도구와 상호 작용하는 AI 에이전트를 구축할 수 있습니다.

현재 Gonka 네트워크는 4,000개 이상의 GPU(H100, H200, A100, RTX 4090 등)를 보유하고 있으며, 120개 이상의 ML 노드로 통합되어 있습니다. 이는 세계에서 가장 큰 분산형 AI 추론 GPU 네트워크 중 하나이며, 이 모든 성능은 Qwen3-235B에 서비스를 제공하는 데 사용됩니다.

Qwen3-235B 사용해 보기

Qwen3-235B를 사용해 보는 가장 쉬운 방법은 JoinGonka API Gateway를 통하는 것입니다. Gateway는 OpenAI 호환 API를 제공합니다. 이는 OpenAI용으로 작성된 모든 코드가 URL과 API 키만 변경하면 Qwen3-235B와 호환된다는 의미입니다.

요청 예시:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "MoE 아키텍처를 설명해 주세요"}]
  }'

비용: 100만 토큰당 $0.001 – 이는 GPT-5.4($2.50/1M)보다 2,500배, Claude Sonnet 4.5($3.00/1M)보다 3,000배 저렴합니다. 등록 시 테스트를 위한 무료 1천만 토큰을 받을 수 있습니다.

Gateway는 인기 있는 개발 도구와 호환됩니다: 빠른 시작은 Python, Node.js 및 curl을 통한 연결을 설명합니다. IDE 통합(Cursor, Continue, Cline, Aider 및 Claude Code) 및 AI 에이전트 프레임워크(LangChain, n8n, LibreChat, Open WebUI)도 지원됩니다.

빠른 시작을 위해:

gate.joingonka.ai에 등록하여 계정을 만드세요 (지갑을 연결하거나 새로 만드세요)
대시보드에서 API 키를 얻으세요
코드에서 api.openai.com을 gate.joingonka.ai/api로 바꾸세요
qwen3-235b-a22b 모델을 사용하세요

JoinGonka를 통한 Qwen3-235B는 취미 프로젝트 비용으로 엔터프라이즈 수준의 AI를 제공합니다.

Qwen3-235B-A22B는 Alibaba Cloud의 235억 매개변수 MoE 모델로, Gonka 네트워크가 분산형 AI 추론에 사용합니다. MoE 아키텍처 덕분에 GPT-5.4 수준의 품질을 2,500배 저렴한 비용으로 제공합니다. JoinGonka Gateway를 통해 모델은 OpenAI 호환 API로 100만 토큰당 0.001달러에 사용할 수 있습니다.

← Gonka용 GPU 선택: 하드웨어 권장 사항 Kimi K2.6: Gonka 네트워크의 두 번째 모델 →

더 자세히 알고 싶으세요?

다른 섹션을 탐색하거나 지금 GNK를 얻기 시작하세요.

Qwen3-235B 사용해 보기 →