News Sharing
For sharing news, please enter the email address of you and the receiver, then press SEND button.*Mandatory Fields
Receiver*
Enter email addresses, separated by semicolon (;). E.g. a@a.com;b@b.com
Your email address*
Content Sharing
騰訊混元AI Infra新開源 HPC-Ops推理核心算子全面升級
騰訊混元公布,HPC-Ops推理算子庫迎來系統級升級,從單點算子進化為覆蓋推理全鏈路的優化能力集合,包含五大關鍵算子。本次升級在主流推理平台上,有效緩解Attention長尾延遲、顯存搬運開銷、跨卡通信等實際工程瓶頸,多項性能指標顯著優於現有的開源基線。HPC-Ops是騰訊混元AI Infra團隊開源並長期維護的一套工業級、高性能的大模型推理底層算子庫。本次...
Reset
Send
The window will close in 5 seconds
騰訊混元AI Infra新開源 HPC-Ops推理核心算子全面升級
Close
Recommend
21
Positive
36
Negative
12
 
 

騰訊混元公布,HPC-Ops推理算子庫迎來系統級升級,從單點算子進化為覆蓋推理全鏈路的優化能力集合,包含五大關鍵算子。本次升級在主流推理平台上,有效緩解Attention長尾延遲、顯存搬運開銷、跨卡通信等實際工程瓶頸,多項性能指標顯著優於現有的開源基線。

HPC-Ops是騰訊混元AI Infra團隊開源並長期維護的一套工業級、高性能的大模型推理底層算子庫。本次升級的主要亮點包括:

Attention:針對真實負載下長短請求混排導致的計算不均、推理長尾問題,採用運行時動態負載調度方案,實測長文本最高加速2.95x,端到端QPM最高提升17%。

Router GEMM:以雙BF16 GEMM組合實現FP32級高精度計算,兼顧推理精度與GPU算力利用率。精度顯著優於常規BF16/TF32方案,對比CuBLAS FP32最高提速3.22x。

FusedMoE:構建MoE全模塊流水線,整合多階段流程、消除顯存搬運與內核啟動開銷。相較vLLM、SGLang等主流框架,性能提升1.2x-1.6x。

Fused AllReduce+Norm:深度融合跨GPU通信、殘差疊加與歸一化計算。對比NCCL、FlashInfer主流方案,性能實現1.04x-1.68x提速。

Sampler:將解碼階段的採樣計算(原本需要十多個操作算子)融合為2個CUDA Kernel,大幅減少調度、讀寫與同步冗餘開銷。相較vLLM提速4.0x-7.5x、較FlashInfer提速1.9x-4.7x,補齊推理末端短板。(jl/da)

AASTOCKS新聞

Copyright(C) AASTOCKS.com Limited 2000. All rights reserved.
Disclaimer: AASTOCKS.com Ltd, HKEx Information Services Limited, its holding companies and/or any subsidiaries of such holding companies endeavour to ensure the accuracy and reliability of the Information provided but do not guarantee its accuracy or reliability and accept no liability (whether in tort or contract or otherwise) for any loss or damage arising from any inaccuracies or omissions.