欧美日韩中文字幕精品_国产乱码在线观看_视频一区国产视频_变态另类丨国产精品_久久久久综合_蜜桃视频最新网址_搞黄网站在线观看_7777精品伊人久久久大香线蕉最新版_99re热视频

登錄
首頁 > 智駕游記 > 全新MoE架構!阿里開源Qwen3-Next,訓練成本直降9成

全新MoE架構!阿里開源Qwen3-Next,訓練成本直降9成

發布時間:2025-09-13 12:22:00
訓練、推理性價比創新高。

大語言模型(LLM),正在進入 Next Level。

周五凌晨,阿里通義團隊正式發布、開源了下一代基礎模型架構 Qwen3-Next。總參數 80B 的模型僅激活 3B ,性能就可媲美千問 3 旗艦版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,實現了模型計算效率的重大突破。

新模型立即在 Qwen.ai 上線,并上傳了 HuggingFace。

  • 新模型網頁版:https://chat.qwen.ai/
  • HuggingFace:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
  • Kaggle:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b

Qwen3-Next 針對大模型在上下文長度擴展(Context Length Scaling)和參數量擴展(Total Parameter Scaling)的未來趨勢而設計。通義團隊表示,其模型結構相較 4 月底推出的 Qwen3 的 MoE 模型新增了多種技術并進行了核心改進,包括混合注意力機制、高稀疏度 MoE 結構、一系列提升訓練穩定性的優化,以及提升推理效率的多 token 預測(MTP)機制等。

模型結構示意圖:

通義團隊介紹了新架構使用的一些機制。

  • 混合架構:Gated DeltaNet + Gated Attention

線性注意力打破了標準注意力的二次復雜度,在處理長上下文時有著更高的效率。通義團隊發現,單純使用線性注意力或標準注意力均存在局限:前者在長序列建模上效率高但召回能力弱,后者計算開銷大、推理不友好。

通過系統實驗,人們發現 Gated DeltaNet 相比常用的滑動窗口注意力(Sliding Window Attention)和 Mamba2 有更強的上下文學習(in-context learning)能力,并在 3:1 的混合比例(即 75% 層使用 Gated DeltaNet,25% 層保留標準注意力)下能一致超過超越單一架構,實現性能與效率的雙重優化。

在保留的標準注意力中,通義進一步引入多項增強設計:

(1)沿用先前工作中的輸出門控機制,緩解注意力中的低秩問題;

(2)將單個注意力頭維度從 128 擴展至 256;

(3)僅對注意力頭前 25% 的位置維度添加旋轉位置編碼,提高長度外推效果。

  • 極致稀疏 MoE:僅激活 3.7% 參數

Qwen3-Next 采用了高稀疏度的 Mixture-of-Experts (MoE) 架構,總參數量達 80B,每次推理僅激活約 3B 參數。實驗表明,在使用全局負載均衡后,當激活專家固定時,持續增加專家總參數可帶來訓練 loss 的穩定下降。

相比 Qwen3 MoE 的 128 個總專家和 8 個路由專家,Qwen3-Next 擴展到了 512 總專家,10 路由專家與 1 共享專家的組合,在不犧牲效果的前提下最大化資源利用率。

  • 訓練穩定性友好設計

通義團隊發現, 注意力輸出門控機制能消除注意力池與極大激活等現象,保證模型各部分的數值穩定。Qwen3 采用了 QK-Norm,部分層的 norm weight 值會出現異常高的情況。為緩解這一現象,進一步提高模型的穩定性,通義在 Qwen3-Next 中采用了 Zero-Centered RMSNorm,并在此基礎上對 norm weight 施加 weight decay,以避免權重無界增長。

通義還在初始化時歸一化了 MoE router 的參數,確保每個 expert 在訓練早期都能被無偏地選中,減小初始化對實驗結果的擾動。

  • Multi-Token Prediction

Qwen3-Next 引入原生 Multi-Token Prediction (MTP) 機制,既得到了 Speculative Decoding 接受率較高的 MTP 模塊,又提升了主干本身的綜合性能。Qwen3-Next 還特別優化了 MTP 多步推理性能,通過訓練推理一致的多步訓練,進一步提高了實用場景下的 Speculative Decoding 接受率。

通義千問大模型負責人林俊旸在 X 上分享了新一代模型開發的細節。他表示團隊已經在混合模型和線性注意力機制上進行了大約一年的實驗。新的解決方案應該足夠穩定可靠,能夠應對超長上下文。

Gated DeltaNet 加混合是經過大量嘗試和錯誤才實現的,而 Gated Attention 的實現就像是免費的午餐,可以獲得額外好處。

得益于創新的混合模型架構,Qwen3-Next 在推理效率方面表現出顯著優勢。與 Qwen3-32B 相比,Qwen3-Next-80B-A3B 在預填充(prefill)階段展現出卓越的吞吐能力:在 4k tokens 的上下文長度下,吞吐量接近前者的七倍;當上下文長度超過 32k 時,吞吐提升更是達到十倍以上。

在解碼(decode)階段,該模型同樣表現優異 —— 在 4k 上下文下實現近四倍的吞吐提升,而在超過 32k 的長上下文場景中,仍能保持十倍以上的吞吐優勢。

基于 Qwen3-Next 的模型結構,通義團隊訓練了 Qwen3-Next-80B-A3B-Base 模型,該模型擁有 800 億參數(僅激活 30 億參數),實現了與 Qwen3-32B dense 模型相近甚至略好的性能,同時訓練成本(GPU hours) 僅為 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐則是 Qwen3-32B 的十倍以上,實現了極致的訓練和推理性價比。

通義團隊開源了 Qwen3-Next-80B-A3B 的指令(Insctruct)模型和推理(Thinking)兩款模型。新模型解決了混合注意力機制 + 高稀疏度 MoE 架構在強化學習訓練中長期存在的穩定性與效率難題,實現了 RL 訓練效率與最終效果的雙重提升。

在編程(LiveCodeBench v6)、人類偏好對齊 (Arena-Hard v2) 以及綜合性能力 (LiveBench) 評測中,Qwen3-Next-Instruct 表現甚至超過了千問的開源旗艦模型,并在包含通用知識(SuperGPQA)、數學推理(AIME25)等核心測評中全面超越了 SOTA 密集模型 Qwen3-32B;Qwen3-Next-Thinking 則全面超越了 Gemini2.5-Flash-Thinking,在數學推理 AIME25 評測中獲得了 87.8 分。而達到如此高水平的模型性能,僅需激活 Qwen3-Next 總參數 80B 中的 3B。

目前,Qwen3-Next 模型也已經在很多第三方平臺中上線。

使用新模型在 anycoder 中的 vibe coding 示例:

Copyright 2017-2025 新車測評網 版權所有  ICP備18049689號-30
亚洲黄色中文字幕| 欧美理论电影在线播放| 国产日本在线播放| 日本欧洲一区| 国产日韩欧美激情| 日本999视频| gogo在线高清视频| 欧美一区二区精品在线| 国产精品变态另类虐交| 免费成人结看片| 国产精品高清免费在线观看| www.99av| 8x福利精品第一导航| 中国女人特级毛片| heyzo欧美激情| 热久久视久久精品18亚洲精品| 香蕉视频免费在线看| 日韩精品一级中文字幕精品视频免费观看 | 欧美激情图片区| 欧美jizzhd精品欧美另类| 久久亚洲春色中文字幕久久久| 青青草av网站| 欧美亚洲综合视频| 日本欧美爱爱爱| 91xxx在线观看| 日韩一区二区电影在线| 欧美brazzers| 国产午夜一区二区三区| 国产成人av影视| 国产真实乱子伦精品视频| 青青草原综合久久大伊人精品优势 | 欧美oldwomenvideos| 国产精品综合二区| 在线视频你懂得一区| www.亚洲人.com| 日韩精品一区二区三区外面| 亚洲精品成人无码毛片| 国产裸体永久免费无遮挡| av在线dvd| 日韩专区视频| 国产尤物久久久| 成人白浆超碰人人人人| 欧美草草影院在线视频| 亚洲一区二区三区乱码aⅴ蜜桃女| 亚洲自拍三区| 亚洲国产天堂av| 中文字幕第八页| 国产黄色在线网站| 欧美在线看片| 亚洲一区二区美女| 97色在线视频观看| 日本一极黄色片| 在线视频欧美亚洲| 在线观看h视频| 夜夜躁狠狠躁日日躁2021日韩| 92精品国产成人观看免费| 亚洲精品色婷婷福利天堂| 日韩av在线电影观看| 手机看片国产日韩| 日本h视频在线观看| 日韩欧国产精品一区综合无码| 欧美aⅴ一区二区三区视频| 在线不卡中文字幕播放| 国产精品嫩草在线观看| 国产在线观看免费播放| 久热视线观看免费视频| 国产高清中文字幕在线| 日本大胆欧美人术艺术动态| 欧美粗暴性video| 国产麻豆精品一区二区三区v视界| 久草在线视频福利| 欧美a级一区二区| 日韩成人av一区| 亚洲电影免费观看高清| 91久久精品| 国产综合视频在线观看| av在线播放免费| 国产日本欧美一区二区三区| 久草成色在线| 免费在线观看一区二区| 久久野战av| 久久久国产精品一区二区三区| 不卡av免费观看| 96国产粉嫩美女| 性开放的欧美大片| 欧美一区二区综合| 色777狠狠狠综合伊人| 色欲狠狠躁天天躁无码中文字幕| 91小视频在线观看| 男人午夜免费视频| 国产精品伦一区| 久久精品视频9| 欧美日韩一区二区三区| 伊人精彩视频| 久久久久久伊人| 91精彩视频在线观看| 久久久久久久av| 好吊色免费视频| 亚洲国产美女精品久久久久∴| 国产亚洲精品一区二区在线观看 | 色婷婷视频在线观看| 亚洲精品人成| 亚洲天堂激情| www.亚洲天堂.com| 精品一区久久| 精品一区二区三区四区五区六区| 欧美大交乱xxxxxbbb| 欧美成人精品午夜一区二区| 亚洲天天做日日做天天谢日日欢 | 久久国产精品久久久久久电车| 亚洲激情在线观看视频免费| 日韩av黄色网址| 一区二区三区视频在线免费观看| 福利视频亚洲| 亚洲欧美一区二区不卡| 国产视频一区二区不卡| 青青青国产在线| 国产人成网在线播放va免费| 国产乱码精品一区二区三| 欧美激情在线一区| 国产真人做爰视频免费| 在线国产一级| 免费人成黄页网站在线一区二区| 久久999免费视频| 免费看污片的网站| 国产女人在线视频| 国产一级视频在线观看| 色美美综合视频| 三级在线视频| 性一交一黄一片| 黑人精品xxx一区| 亚洲pron| 插我舔内射18免费视频| 国产三级在线免费| 亚洲淫片在线视频| 久久高清视频免费| 国产伦精品一区二区三区妓女下载| 国产免费麻豆视频| 日本欧美肥老太交大片| 亚洲精品电影网| 99免费观看视频| 亚洲人av在线| 不卡高清视频专区| 电影午夜精品一区二区三区| 99视频在线观看免费| 欧美日韩中出| 日韩欧美在线影院| 亚洲欧美一区二区三区不卡| 写真福利片hd在线观看| 国产精品一区二区久激情瑜伽 | 97色伦图片97综合影院| 亚洲天堂视频在线观看| aaaaa级少妇高潮大片免费看| 日韩美女一级视频| 26uuu久久综合| 日本欧美色综合网站免费| www.四虎影视.com| 欧美精品99| 91爱视频在线| 免费看av在线| 国产成人一二片| 亚洲老头同性xxxxx| 精品人妻中文无码av在线| 天堂中文а√在线| 亚洲欧美另类小说| 缅甸午夜性猛交xxxx| www.999av| 99久久婷婷国产综合精品电影| 免费成人av网站| 国产馆手机在线观看| 免费亚洲视频| 91免费精品视频| 色窝窝无码一区二区三区| 欧美在线播放| 国产xxx69麻豆国语对白| 91国产免费视频| 精品高清久久| 欧美国产在线电影| 正在播放木下凛凛xv99| 免费三级在线观看| 国产激情在线观看| 在线影视一区二区三区| 91丝袜超薄交口足| 日本黄色片在线观看| 午夜精品一区二区三区电影天堂| 538在线视频观看| 福利视频在线导航| 色综合久久中文字幕| 久久99国产乱子伦精品免费| 日韩欧美看国产| av电影免费在线看| 久久天堂夜夜一本婷婷麻豆| 日韩成人av免费| 国产成人在线一区二区| 国产视频一区在线播放| 国产精品白浆| 黄页视频在线免费观看| 人人草在线观看| 午夜不卡久久精品无码免费| 中文字幕网av|