重磅!阿里开源第三代千问大模型:Qwen3系列,最小仅6亿参数规模,最大2350亿参数规模大模型!可以根据问题难度自动选择是否带思考过程的大模型,评测超DeepSeek-R1和OpenAI o3
阿里巴巴刚刚开源了第三代千问大模型,Qwen3系列包含了8个不同参数规模的大模型,最大达到2350亿参数规模,最小仅6亿参数规模。本次发布的Qwen3系列是推理大模型和常规的大模型混合版本,即Qwen3可以根据输入问题的情况自动选择是否进行推理。

Qwen3系列大模型介绍
本次阿里开源的Qwen3系列大模型共包含8个不同参数规模的大模型,其中有6个是dense(稠密)模型,还有2个混合专家架构(MoE)大模型。
Qwen3系列大模型最大的特点是一个模型支持推理和非推理2种模式进行使用。可以通过enable_thinking参数进行控制(Hugging Face transformers框架)。也就是说,对于数学、编程等需要强逻辑推理的问题来说,我们可以启用思考模式,对于总结摘要等不需要思维链的推理可以使用非推理模式加快推理速度。
此外,Qwen3系列模型在100多种语言上进行了预训练,因此支持全球100+语种,可以说非常强大。
稠密模型最小的是6亿参数的Qwen3-0.6B,非常小巧,量化后0.6G显存即可运行,还有一个1.7亿参数规模的Qwen3-1.7B和4亿参数的Qwen3-4B模型,这三个模型都是可以在移动端运行的,上下文长度32K。
此外,还有Qwen3-8B、Qwen3-14B和Qwen3-32B三个稠密模型,上下文长度是128K,这三个模型都是延续了此前Qwen系列的参数规模。


