新聞分享
如欲分享新聞,請填寫收件人及閣下之電郵,再按「送出」。*必需填寫
收件者電郵*
請用分號「;」分隔不同電郵地址,例子:a@a.com;b@b.com
閣下之電郵*
分享內容
阿里巴巴推出更高效的Qwen3-Next人工智能模型
9月12日|阿里巴巴旗下通義千問發佈了下一代基礎模型架構Qwen3-Next,並開源了基於該架構的Qwen3-Next-80B-A3B系列模型。該結構相比Qwen3的MoE模型結構,進行了以下核心改進...
重設
送出
視窗將於5秒內關閉
阿里巴巴推出更高效的Qwen3-Next人工智能模型
關閉
格隆匯新聞
推薦
31
利好
50
利淡
23
 
 

9月12日|阿里巴巴旗下通義千問發佈了下一代基礎模型架構Qwen3-Next,並開源了基於該架構的Qwen3-Next-80B-A3B系列模型。該結構相比Qwen3的MoE模型結構,進行了以下核心改進:混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的優化,以及提升推理效率的多token預測機制。基於Qwen3-Next的模型結構,阿里訓練了Qwen3-Next-80B-A3B-Base模型,該模型擁有800億參數僅激活30億參數。該Base模型實現了與Qwen3-32B dense模型相近甚至略好的性能,而它的訓練成本(GPU hours) 僅為Qwen3-32B的十分之一不到,在32k以上的上下文下的推理吞吐則是Qwen3-32B的十倍以上,實現了極致的訓練和推理性價比。

新聞來源 (不包括新聞圖片): 格隆匯
AASTOCKS.com LIMITED 版權所有,不得轉載