恒生指数1 24,249.29 -158.67 2,885.74亿
国企指数1 8,217.08 -101.65 920.09亿
返回    放大 +    缩小 -
腾讯混元AI Infra新开源 HPC-Ops推理核心算子全面升级
2026-06-11 16:46:41
腾讯混元公布,HPC-Ops推理算子库迎来系统级升级,从单点算子进化为覆盖推理全链路的优化能力集合,包含五大关键算子。本次升级在主流推理平台上,有效缓解Attention长尾延迟、显存搬运开销、跨卡通信等实际工程瓶颈,多项性能指标显着优於现有的开源基线。

HPC-Ops是腾讯混元AI Infra团队开源并长期维护的一套工业级、高性能的大模型推理底层算子库。本次升级的主要亮点包括:

Attention:针对真实负载下长短请求混排导致的计算不均、推理长尾问题,采用运行时动态负载调度方案,实测长文本最高加速2.95x,端到端QPM最高提升17%。

Router GEMM:以双BF16 GEMM组合实现FP32级高精度计算,兼顾推理精度与GPU算力利用率。精度显着优於常规BF16/TF32方案,对比CuBLAS FP32最高提速3.22x。

FusedMoE:构建MoE全模块流水线,整合多阶段流程、消除显存搬运与内核启动开销。相较vLLM、SGLang等主流框架,性能提升1.2x-1.6x。

Fused AllReduce+Norm:深度融合跨GPU通信、残差叠加与归一化计算。对比NCCL、FlashInfer主流方案,性能实现1.04x-1.68x提速。

Sampler:将解码阶段的采样计算(原本需要十多个操作算子)融合为2个CUDA Kernel,大幅减少调度、读写与同步冗余开销。相较vLLM提速4.0x-7.5x、较FlashInfer提速1.9x-4.7x,补齐推理末端短板。(jl/da)~

阿思达克财经新闻
网址: www.aastocks.com