阿里云通义千问团队最新发布的Qwen3系列模型,以其多样化的模型规模和创新的混合推理模式引发业界关注。涵盖从0.6B到235B的八款模型,Qwen3不仅在语言、数学和编码任务上表现卓越,还通过MoE(混合专家)和Dense(密集)架构实现了性能与效率的极致平衡。以下通过表格形式,详细梳理Qwen3系列的核心参数和特性,揭示其技术内核。

Qwen3模型参数一览

模型名称

总参数量

激活参数量

架构类型

上下文长度

支持语言

许可证

主要特性

Qwen3-235B-A22B

2350亿

220亿

MoE

128K token

119种

Qwen License

旗舰模型,编码、数学、通用能力媲美DeepSeek-R1、Grok-3,高效推理

Qwen3-30B-A3B

300亿

30亿

MoE

128K token

119种

Qwen License

小型MoE,性能超Qwen2.5-32B,推理成本低,适合本地部署

Qwen3-32B

320亿

320亿

Dense

128K token

119种

Apache 2.0

高性能密集模型,适合复杂任务,推理能力匹敌Qwen2.5-72B

Qwen3-14B

140亿

140亿

Dense

128K token

119种

Apache 2.0

中等规模,平衡性能与资源占用,适合企业级应用

Qwen3-8B

80亿

80亿

Dense

128K token

119种

Apache 2.0

轻量高效,适用于边缘设备,性能媲美Qwen2.5-14B

Qwen3-4B

40亿

40亿

Dense

128K token

119种

Apache 2.0

小型模型,推理速度快,性能接近Qwen2.5-7B

Qwen3-1.7B

17亿

17亿

Dense

128K token

119种

Apache 2.0

超轻量,适合移动设备,性能匹敌Qwen2.5-3B

Qwen3-0.6B

6亿

6亿

Dense

128K token

119种

Apache 2.0

最小规模,极低资源需求,适用于低功耗场景

Qwen3 本地部署推荐参数设置

模式

Temperature

TopP

TopK

MinP

Presence Penalty

Ollama 设置

备注

思考模式

0.6 控制随机性,低值更稳定

0.95 累积概率采样,高值增多样性

20 选前K个词,平衡多样性

0 无概率下限,最大灵活性

0 ~ 2 减少重复,高值慎用

num_ctx=40960 num_predict=32768 keep_alive=-1

禁用贪婪解码,避免性能下降和重复。

非思考模式

0.7 稍高随机性,增创造性

0.8 较低值,输出更集中

20 选前K个词,平衡多样性

0 无概率下限,最大灵活性

0 ~ 2 减少重复,高值慎用

num_ctx=40960 num_predict=32768 keep_alive=-1

高 presence_penalty 可能导致语言混合

参数与特性解析

模型规模与架构类型

Qwen3系列提供两种架构:

  • MoE(混合专家):如Qwen3-235B-A22B和Qwen3-30B-A3B,通过激活部分参数(22B或3B)实现高效推理,总参数量虽大,但计算成本接近小规模密集模型。MoE架构在编码、数学等任务中表现出色,推理速度提升显著。

  • Dense(密集模型):从0.6B到32B的全参数模型,适合需要稳定高性能的场景。小模型(如Qwen3-0.6B)针对边缘设备优化,大模型(如Qwen3-32B)则在复杂推理任务中表现优异。

上下文长度

所有Qwen3模型支持128K token的上下文长度,可处理超长文档或多轮对话,生成能力高达8K token。这一特性使其在长文本生成、文档理解等任务中具备明显优势。

多语言支持

Qwen3支持119种语言和方言,覆盖中文、英文、欧洲语言及低资源语言,适用于全球化的多语言应用场景。

混合思维模式

Qwen3首创思考模式与非思考模式切换:

  • 思考模式:通过链式推理(CoT)逐一推导,适合复杂数学、编码和逻辑推理任务。

  • 非思考模式:快速响应简单查询,优化延迟和计算成本。

这一设计通过四阶段训练(长CoT冷启动、基于推理的RL、思维模式融合、通用RL)实现,显著提升任务适配性。

许可证与开源策略

  • 密集模型(0.6B-32B)采用Apache 2.0许可证,适合商业应用。

  • MoE模型(235B-A22B、30B-A3B)使用Qwen License,更适合研究场景。

性能与效率

基准测试表现

  • Qwen3-235B-A22B:在MMLU-Pro、LiveCodeBench等测试中,与DeepSeek-R1、Grok-3等顶级模型竞争,编码和数学能力尤为突出。

  • Qwen3-30B-A3B:激活仅3B参数,却超越Qwen2.5-32B,推理效率提升10倍,适合本地部署和实时应用。

  • 小型模型:如Qwen3-4B,性能媲美Qwen2.5-72B,适合资源受限场景