通义千问正式推出Qwen3系列模型支持多语言和两种思考模式 - Cloud&AI

C114
通信人家园
English
公众号矩阵

投稿
举报

量子大观

通信人家园

C114通信网

光通信观察

DVBCN中广5G

2025/4/29 11:41

通义千问正式推出Qwen3系列模型支持多语言和两种思考模式

凤凰网科技杨睿琪

4月29日，通义千问团队宣布推出Qwen3系列大语言模型，包含多个参数规模的密集模型（Dense）与混合专家模型（MoE），并全面开源。

该系列模型引入“思考模式”与“非思考模式”两种思考模式，前者支持复杂问题分步推理，后者提供快速响应。

在预训练方面，Qwen3的数据集相比Qwen2.5有了显著扩展。Qwen2.5是在18万亿个 token上进行预训练的，而Qwen3使用的数据量几乎是其两倍，达到了约36万亿个 token，涵盖了119种语言和方言。

此外，据官方介绍，通义千问开源了两个MoE模型的权重：Qwen3-235B-A22B，一个拥有2350多亿总参数和220多亿激活参数的大模型，以及Qwen3-30B-A3B，一个拥有约300亿总参数和30亿激活参数的小型MoE模型。

六个Dense模型也已开源，包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在Apache 2.0许可下开源。

据官方表示，旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro等顶级模型相比，表现出极具竞争力的结果。此外，小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%，表现更胜一筹，甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。

技术细节方面，Qwen3采用四阶段后训练流程，整合强化学习与指令微调，增强模型推理及多任务处理能力。

团队表示，未来计划从多个维度提升模型，包括优化模型架构和训练方法，以实现几个关键目标：扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围，并利用环境反馈推进强化学习以进行长周期推理。

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

给作者点赞

0 VS 0

写得不太好