查询
| 恒生指数1 | 24,249.29 | -158.67 | 2,885.74亿 |
| 国企指数1 | 8,217.08 | -101.65 | 920.09亿 |
| 返回 放大 + 缩小 - | |
|
腾讯混元AI Infra新开源 HPC-Ops推理核心算子全面升级
2026-06-11 16:46:41 腾讯混元公布,HPC-Ops推理算子库迎来系统级升级,从单点算子进化为覆盖推理全链路的优化能力集合,包含五大关键算子。本次升级在主流推理平台上,有效缓解Attention长尾延迟、显存搬运开销、跨卡通信等实际工程瓶颈,多项性能指标显着优於现有的开源基线。 HPC-Ops是腾讯混元AI Infra团队开源并长期维护的一套工业级、高性能的大模型推理底层算子库。本次升级的主要亮点包括: Attention:针对真实负载下长短请求混排导致的计算不均、推理长尾问题,采用运行时动态负载调度方案,实测长文本最高加速2.95x,端到端QPM最高提升17%。 Router GEMM:以双BF16 GEMM组合实现FP32级高精度计算,兼顾推理精度与GPU算力利用率。精度显着优於常规BF16/TF32方案,对比CuBLAS FP32最高提速3.22x。 FusedMoE:构建MoE全模块流水线,整合多阶段流程、消除显存搬运与内核启动开销。相较vLLM、SGLang等主流框架,性能提升1.2x-1.6x。 Fused AllReduce+Norm:深度融合跨GPU通信、残差叠加与归一化计算。对比NCCL、FlashInfer主流方案,性能实现1.04x-1.68x提速。 Sampler:将解码阶段的采样计算(原本需要十多个操作算子)融合为2个CUDA Kernel,大幅减少调度、读写与同步冗余开销。相较vLLM提速4.0x-7.5x、较FlashInfer提速1.9x-4.7x,补齐推理末端短板。(jl/da)~ 阿思达克财经新闻 网址: www.aastocks.com | |