Qwen3

通义千问最新一代大模型：采用混合专家架构，具备思考与快速回答双模式，支持119种语言

模型概览

全系列开源MoE与Dense模型，Apache 2.0许可
MoE: 235B (22B激活), 30B (3B激活)
Dense: 32B, 14B, 8B, 4B, 1.7B, 0.6B
上下文长度: 小模型32K, 大模型128K

性能基准

与顶级模型DeepSeek-R1, ol, Grok-3等竞争
Qwen3-4B ≈ Qwen2.5-72B-Instruct
Qwen3-30B-A3B 超越Qwen2-32B (参数量10倍)
MoE模型使用仅 10% 激活参数实现同等性能

混合思考模式

同时支持深度思考和快速回答两种模式
思考模式: 复杂问题逐步推理
非思考模式: 简单问题快速回答
支持/think和/no_think动态切换

多语言支持

119

种语言与方言

预训练与训练方法

36万亿tokens训练，是Qwen2.5的两倍
三阶段预训练: 基础、知识增强、长文本
四阶段混合训练: 长CoT、推理RL、模式融合、通用RL

智能体能力

增强编码与工具调用能力
优化代码与工具调用能力
增强MCP协议支持
推荐框架: Qwen-A Agent

使用与部署

模型下载

HuggingFace, ModelScope, Kaggle

服务部署

SGLang, vLLM (OpenAI兼容API)

本地运行

Ollama, LMStudio, MLX, llama.cpp

在线体验

chat.qwen.ai (Web & 移动应用)

使用示例: 通过enable_thinking参数切换思考模式，使用/think和/no_think在对话中动态控制。

技术规格详情

Dense模型
型号	层数	Heads	上下文
Qwen3-0.6B	28	16/8	32K
Qwen3-1.7B	28	16/8	32K
Qwen3-4B	36	32/8	32K
Qwen3-8B	36	32/8	128K
Qwen3-14B	40	40/8	128K
Qwen3-32B	64	64/8	128K

MoE模型
型号	层数	专家数	上下文
Qwen3-30B-A3B	48	128/8	128K
Qwen3-235B-A22B	94	128/8	128K