成本暴降90%！阿里深夜干了件大事-时事新闻-世界论坛网（电脑版）

首页

即时

热点

图片

论坛

简体/繁体 | 广告服务 | 联系我们 | 关于我们 |

世界论坛网 > 时事新闻 > 正文

成本暴降90%！阿里深夜干了件大事
www.wforum.com \| 2025-09-12 14:13:02 智东西 \| 0条评论 \| 查看/发表评论




9月12日凌晨，阿里通义实验室正式发布下一代基础模型架构Qwen3-Next，并训练了基于该架构的Qwen3-Next-80B-A3B-Base模型，该模型拥有800亿个参数仅激活30亿个参数。 Base模型在Qwen3预训练数据的子集15T tokens上进行，仅需Qwen3-32B 9.3%的GPU计算资源，针对超过32k的上下文，推理吞吐量可达到Qwen3-32B的10倍以上。同时，基于Base模型，阿里开源了Qwen3-Next-80B-A3B的指令模型（Instruct）和思维模型（Thinking），模型支持原生262144个token上下文长度，可扩展至1010000个token。其中，Qwen3-Next-80B-A3B-Instruct仅支持指令（非思考）模式，其输出中不生成块；Qwen3-Next-80B-A3B-Thinking仅支持思考模式，为了强制模型进行思考，默认聊天模板自动包含。指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当，思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking。在架构升级方面，相比阿里4月底的Qwen3 MoE模型，新增了混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化，以及提升推理效率的多Token预测（MTP）机制等。新模型已在魔搭社区和HuggingFace开源，开发者们也可通过Qwen Chat免费体验或阿里云百炼、NVIDIA API Catalog体验Qwen3-Next。开发者在Qwen的X评论区称赞其新增的多Token预测（MTP）机制，称这是最令人印象深刻的部分。思维模型测试基准阿里云百炼：https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3 一、指令模型接近235B旗舰模型，推理模型超Gemini-2.5 Qwen3-Next模型支持原生262144个token上下文长度，可扩展至1010000个token。总的来看在性能方面，指令模型接近阿里参数规模235B的旗舰模型，思维模型表现优于Gemini-2.5-Flash-Thinking。其基座模型为Qwen3-Next-80B-A3B-Base，仅使用1/10的Non-Embedding激活参数，在大多数基准测试中，性能表现与Qwen3-32B-Base相近。但其总训练成本为Qwen3-32B-Base的10%不到，并且对于超过32K上下文的推理吞吐是Qwen3-32B的10倍以上。得益于其新的混合模型架构，Qwen3-Next在推理效率方面，与Qwen3-32B相比，Qwen3-Next-80B-A3B在预填充（prefill）阶段，在4k tokens的上下文长度下，吞吐量接近前者的7倍，当上下文长度超过32k时，吞吐提升达到10倍以上。在解码（decode）阶段，该模型在4k上下文下实现近4倍的吞吐提升，在超过32k的长上下文场景中能保持10倍以上的吞吐优势。具体来看，其指令模型表现优于Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking，并取得了几乎与参数规模更大的Qwen3-235B-A22B-Instruct-2507模型相近的结果。只有在面向大模型的综合性评测基准、高难度数学推理基准AIME25中，指令模型的表现略逊色于Qwen3-235B-A22B-Instruct-2507，在编程、复杂问答与长对话的评测中表现更好。 Qwen3-Next-80B-A3B-Instruct在RULER上所有长度的表现明显优于层数相同、注意力层数更多的Qwen3-30B-A3B-Instruct-2507，甚至在256k范围内都超过了层数更多的Qwen3-235B-A22B-Instruct-2507。思维模型的表现优于预训练成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking，全面超过了谷歌的闭源模型Gemini-2.5-Flash-Thinking，并在部分指标上接近阿里最新旗舰模型Qwen3-235B-A22B-Thinking-2507。二、混合注意力、MoE、稳定优化、多Token预测加持研究人员在博客中提到，Qwen3-Next是针对大模型在上下文长度和总参数两方面不断扩展（Scaling）的未来趋势而设计。 Qwen3-Next采用的是Qwen3 36T预训练语料的一个均匀采样子集，包含15T tokens。其训练所消耗的GPU Hours不到Qwen3-30A-3B的80%；与Qwen3-32B相比，仅需9.3%的GPU计算资源，即可实现更优的模型性能。这一模型结构相较其4月底推出的Qwen3的MoE模型，新增了多种新技术并进行了核心改进，包括混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化，以及提升推理效率的多Token预测（MTP）机制等。混合注意力机制：用Gated DeltaNet（线性注意力）和Gated Attention（门控注意力）的组合替换标准注意力，实现超长上下文长度的有效上下文建模。研究人员发现Gated DeltaNet相比常用的滑动窗口注意力（Sliding Window Attention）和Mamba2有更强的上下文学习能力, 并在3:1的混合比例下，即75%层使用Gated DeltaNet，25%层保留标准注意力，能一致超过超越单一架构，实现性能与效率的双重优化。同时在保留的标准注意力中，研究人员进一步引入多项增强设计，包括沿用先前工作的输出门控机制，缓解注意力中的低秩问题，将单个注意力头维度从128扩展至256，仅对注意力头前25%的位置维度添加旋转位置编码，提高长度外推效果。高稀疏度混合专家（MoE）：在MoE层中实现极低的激活比率，大幅减少每个token的FLOPs，同时保留模型容量。研究人员的实验表明，在使用全局负载均衡后，当激活专家固定时，持续增加专家总参数可带来训练loss的稳定下降。此前，Qwen3系列的MoE专家激活比约为1比16，Qwen3-Next实现了1比50的激活比。稳定性优化：包括零中心化和权重衰减layernorm等技术，以及其他增强稳定性以实现鲁棒的预训练和后训练。研究人员发现，注意力输出门控机制能消除注意力池与极大激活等现象，保证模型各部分的数值稳定。多Token预测（MTP）：提升预训练模型性能并加速推理，Qwen3-Next特别优化了MTP多步推理性能，通过训练推理一致的多步训练，进一步提高了实用场景下的Speculative Decoding接受率。结语：3B激活参数对标旗舰模型！阿里凭架构创新为模型降本提速Qwen3-Next的突破点在于同时实现了大规模参数容量、低激活开销、长上下文处理与并行推理加速。此外结合注意力机制、MoE设计等方面的多项架构创新，阿里通义此次实现仅激活3B参数模型就能对标规模更大模型的性能，使得模型在性能与效率之间找到更佳平衡点，同时为降低模型训练、推理成本提供了有效路径。研究人员在博客提到，未来他们将持续优化这一架构并开发Qwen3.5。与此同时近期阿里通义已经推出数个不同领域的模型，如超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等。随着其多领域模型的持续落地与开源，阿里通义在开源社区的技术影响力正逐步增强。

当前新闻共有0条评论	分享到：

评论前需要先登录或者注册哦

全部评论

暂无评论

	实用资讯

24小时新闻排行榜

	中国战略核力量距世界一流还差多远？
	从未见过！4款中国神秘新步枪意外曝光
	中国在黄岩岛的“阳谋” 菲律宾甘拜下风
	鹰击19，比在12级台风里点燃一根火柴都难
	武德充沛！搭载24枚垂发的德国装甲运兵车

48小时新闻排行榜

	中国战略核力量距世界一流还差多远？
	从未见过！4款中国神秘新步枪意外曝光
	中国在黄岩岛的“阳谋” 菲律宾甘拜下风
	鹰击19，比在12级台风里点燃一根火柴都难
	武德充沛！搭载24枚垂发的德国装甲运兵车
	仁爱礁防线被突破？菲军方宣布补给成功
	一场“乌龙”？波兰误以为俄罗斯发动侵略
	福建舰又出门了马上正式入役？
	49架一次歼灭！美军电磁脉冲秒杀无人机群
	15架战机扑空以军最想杀的人“漏网”了

热门专题

1	中美对抗	2	以哈战争	3	乌克兰战争
4	美国大选	5	李克强猝逝	6	新冠疫情
7	香港局势	8	委内瑞拉	9	华为
10	黑心疫苗	11	“低端人群”	12	美国税改
13	红黄蓝幼儿园	14	中共19大	15	郭文贵

广告服务 | 联系我们 | 关于我们 | 网站导航 | 隐私保护

Jobs. Contact us. Privacy Policy. Copyright (C) 1998-2025. Wforum.COM. All Rights Reserved.