C114通信网  |  通信人家园

人工智能
2025/4/29 11:41

通义千问正式推出Qwen3系列模型 支持多语言和两种思考模式

凤凰网科技  杨睿琪

4月29日,通义千问团队宣布推出Qwen3系列大语言模型,包含多个参数规模的密集模型(Dense)与混合专家模型(MoE),并全面开源。

该系列模型引入“思考模式”与“非思考模式”两种思考模式,前者支持复杂问题分步推理,后者提供快速响应。

在预训练方面,Qwen3的数据集相比Qwen2.5有了显著扩展。Qwen2.5是在18万亿个 token上进行预训练的,而Qwen3使用的数据量几乎是其两倍,达到了约36万亿个 token,涵盖了119种语言和方言。

此外,据官方介绍,通义千问开源了两个MoE模型的权重:Qwen3-235B-A22B,一个拥有2350多亿总参数和220多亿激活参数的大模型,以及Qwen3-30B-A3B,一个拥有约300亿总参数和30亿激活参数的小型MoE模型。

六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在Apache 2.0许可下开源。

据官方表示,旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。此外,小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。

技术细节方面,Qwen3采用四阶段后训练流程,整合强化学习与指令微调,增强模型推理及多任务处理能力。

团队表示,未来计划从多个维度提升模型,包括优化模型架构和训练方法,以实现几个关键目标:扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围,并利用环境反馈推进强化学习以进行长周期推理。

给作者点赞
0 VS 0
写得不太好

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2025 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141