지식 기반 섹션 ▾

도구

기술

Qwen3-235B: Gonka가 채굴하는 모델

Gonka 네트워크는 단순히 GPU를 임대하는 것이 아니라 AI 모델 추론을 서비스합니다. 오랫동안 Alibaba Cloud가 개발한 Qwen3-235B-A22B-Instruct가 유일한 Qwen3 모델이었지만, 2026년 5월에는 Moonshot AI의 Kimi K2.6이 추가되었습니다. 이 모델이 무엇인지, Gonka가 왜 이 모델을 선택했는지, 그리고 우리의 API Gateway를 통해 어떻게 이 모델을 시도해 볼 수 있는지 알아보겠습니다.

Qwen3-235B란 무엇인가

Qwen3-235B-A22B-Instruct-2507-FP8은 Alibaba Cloud의 Qwen 팀이 개발한 Qwen3 제품군의 대규모 언어 모델(LLM)입니다. 전체 이름은 다음과 같이 풀이됩니다: Qwen3 — 3세대 시리즈, 235B — 총 2,350억 개의 매개변수, A22B — 각 요청에 220억 개의 활성 매개변수, Instruct — 지침을 따르도록 훈련된 버전, 2507 — 2025년 7월 릴리스, FP8 — 메모리 최적화를 위한 8비트 양자화.

핵심 아키텍처 특징은 MoE(Mixture of Experts)입니다. 모든 토큰이 모든 매개변수를 통과하는 '밀집' 모델(GPT-5.5, Claude Sonnet 4.6)과 달리 MoE 모델은 각 요청에 대해 특정 '전문가' 하위 집합(신경망의 특수 블록)만 활성화합니다. Qwen3-235B의 경우 2,350억 개의 매개변수 중 각 토큰에 대해 220억 개, 즉 10% 미만이 활성화됩니다. 이는 220억 개 모델의 계산 비용으로 2,000억 개 이상의 매개변수 모델 수준의 품질을 제공합니다.

실질적으로 이는 다음과 같은 의미입니다. 이 모델은 속도에 비해 예상보다 똑똑합니다. 비슷한 품질의 밀집 모델보다 훨씬 빠르게 요청을 처리하며, 추론에 필요한 VRAM이 훨씬 적습니다. 이것이 바로 MoE가 2025-2026년 대규모 모델의 주류 아키텍처가 된 이유입니다.

Qwen3-235B의 컨텍스트 창은 131,072 토큰(약 100,000 단어)입니다. 이는 전체 책, 코드 베이스 또는 긴 법률 문서를 단일 요청으로 분석하기에 충분합니다. 이 모델은 한국어, 영어, 중국어, 아랍어, 힌디어 등 수십 개 언어를 포함하여 119개 언어를 지원하여 시장에서 가장 다국어 모델 중 하나입니다.

특성 및 벤치마크

Qwen3-235B는 가장 큰 비공개 및 공개 모델과 경쟁합니다. 주요 특징 비교는 다음과 같습니다.

모델매개변수컨텍스트MoE오픈 소스가격 (1M 토큰당)
Qwen3-235B (조인곤카를 통해)235B (22B 활성)131K예 (Apache 2.0)$0.001
GPT-5.5 (OpenAI)~1.8T (추정)128K예 (가정)아니요$5.00
Claude Sonnet 4.6 (Anthropic)미공개200K아니요 (추정)아니요$3.00
Llama 4 Maverick (Meta)400B (17B 활성)1M예 (Llama License)$0.20+ (호스팅)
DeepSeek-R1 (DeepSeek)671B (37B 활성)128K예 (MIT)$0.55

Qwen3-235B는 대부분의 벤치마크에서 GPT-5.5 및 Claude Sonnet 4.6과 비슷한 품질 수준을 보여주지만, JoinGonka Gateway를 통한 비용은 GPT-5.5보다 5,000배 저렴합니다. 이는 두 가지 요인 덕분입니다. MoE 아키텍처는 계산 비용을 줄이고, 분산형 Gonka 네트워크는 데이터 센터의 마진을 제거합니다.

MMLU-Pro, HumanEval, MATH-500 및 GSM8K 벤치마크에서 이 모델은 수학적 추론(reasoning) 작업에서 DeepSeek-R1에만 뒤처지며 상위 3위권 내에 드는 최고의 오픈 소스 모델 중 하나입니다. 코드 생성, 번역 및 지침 따르기 작업에서 Qwen3-235B는 Llama 4 Maverick보다 꾸준히 우위를 점하며 Claude Sonnet 4.6과 비슷합니다.

Gonka는 Qwen3-235B를 어떻게 활용하는가

Qwen3-235B 모델은 Gonka 네트워크에서 추론에 맞게 조정된 DiLoCo 프로토콜을 통해 분산 방식으로 작동합니다. FP8 형식의 전체 모델은 약 640GB의 비디오 메모리(VRAM)를 필요로 하므로, H100 80GB 또는 H200 141GB와 같은 단일 GPU에는 장착할 수 없습니다. 따라서 모델은 여러 ML 노드 간에 계층별(tensor parallelism + pipeline parallelism)로 분할됩니다.

실제로 Qwen3-235B는 최소 40GB VRAM을 가진 8~16개의 GPU 노드 클러스터에서 작동합니다. Transfer Agents는 요청을 올바른 클러스터로 라우팅하고, 각 노드의 vLLM은 모델의 자체 부분을 처리하며, 결과는 집계되어 사용자에게 반환됩니다. 전체 프로세스는 수백 밀리초가 소요되며, 사용자는 자신의 요청이 지구의 여러 지점에 있는 수십 개의 GPU에 의해 처리된다는 것을 느끼지 못합니다.

중요한 기술적 세부사항: Gonka는 서빙 엔진으로 vLLM을 사용합니다. vLLM은 PagedAttention(여러 요청을 병렬로 처리할 때 비디오 메모리 사용을 최적화하는 알고리즘)을 통해 고성능 텍스트 생성을 제공하는 오픈 소스 프로젝트입니다. 이를 통해 네트워크는 품질 저하 없이 수천 명의 동시 사용자를 처리할 수 있습니다.

이 모델은 네이티브 도구 호출(tool calling)을 지원합니다. 모델 응답에서 직접 함수 및 도구를 호출할 수 있습니다. 이 기능은 도구 호출을 식별하기 위한 0.958 임계값을 가진 PR #767을 통해 Gonka에 추가되었습니다. 즉, 개발자는 Qwen3-235B에 대한 단일 요청을 통해 외부 API, 데이터베이스 및 도구와 상호 작용하는 AI 에이전트를 구축할 수 있습니다.

현재 Gonka 네트워크는 4,000개 이상의 GPU(H100, H200, A100, RTX 4090 등)를 보유하고 있으며, 120개 이상의 ML 노드로 통합되어 있습니다. 이는 세계에서 가장 큰 분산형 AI 추론 GPU 네트워크 중 하나이며, 이 모든 성능은 Qwen3-235B에 서비스를 제공하는 데 사용됩니다.

Qwen3-235B 사용해 보기

Qwen3-235B를 사용해보는 가장 쉬운 방법은 JoinGonka API Gateway를 통하는 것입니다. Gateway는 OpenAI 호환 API를 제공합니다. 이는 OpenAI를 위해 작성된 모든 코드가 URL과 API 키만 변경하면 Qwen3-235B에서 변경 없이 작동한다는 것을 의미합니다.

요청 예시:

curl https://gate.joingonka.ai/api/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-235b-a22b",
    "messages": [{"role": "user", "content": "MoE 아키텍처를 설명해주세요"}]
  }'

비용: 토큰 1백만 개당 $0.001 — 이는 GPT-5.5($5.00/1M)보다 5,000배, Claude Sonnet 4.6($3.00/1M)보다 3,000배 저렴합니다. 가입 시 테스트를 위한 무료 1천만 토큰을 받습니다.

Gateway는 인기 있는 개발 도구와 호환됩니다. Quick Start는 Python, Node.js 및 curl을 통한 연결을 설명합니다. 또한 IDE 통합(Cursor, Continue, Cline, Aider, Claude Code) 및 AI 에이전트 프레임워크(LangChain, n8n, LibreChat, Open WebUI)도 지원됩니다.

빠른 시작을 위해:

  1. gate.joingonka.ai에 가입합니다 (지갑 연결 또는 새로 생성)
  2. 대시보드에서 API 키를 받습니다.
  3. 코드에서 api.openai.comgate.joingonka.ai/api로 바꿉니다.
  4. qwen3-235b-a22b 모델을 사용합니다.

JoinGonka를 통한 Qwen3-235B는 취미 프로젝트 가격의 엔터프라이즈급 AI입니다.

비교를 위해: OpenRouter를 통한 동일한 Qwen3-235B 모델은 1M당 $0.071/$0.100입니다. JoinGonka의 $0.001에 비해 (70~100배 더 비쌉니다).

Qwen3-235B-A22B는 Alibaba Cloud의 2,350억 개 매개변수를 가진 MoE 모델로, Gonka 네트워크가 분산형 AI 추론에 사용합니다. MoE 아키텍처 덕분에 GPT-5.5 수준의 품질을 5,000배 저렴한 비용으로 제공합니다. JoinGonka Gateway를 통해 모델은 1M 토큰당 $0.001로 OpenAI 호환 API를 통해 사용할 수 있습니다.

더 자세히 알고 싶으세요?

다른 섹션을 탐색하거나 지금 GNK를 얻기 시작하세요.

Qwen3-235B 사용해 보기 →