華為正式發布AI推理創新技術UCM(推理記憶數據管理器)。作為一款以KV Cache為中心的推理加速套件,UCM融合多類型緩存加速算法工具,分級管理推理過程中產生的KV Cache記憶數據,可擴大推理上下文窗口,實現高吞吐及低時延的推理體驗,降低每Token推理成本。
該技術已率先在中國銀聯「客戶之聲」、「營銷策劃」及「辦公助手」三大業務場景中,開展智慧金融AI推理加速應用試點,並已取得成果。
據《證券時報》報道,華為計劃9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,並共享給業內所有Share Everything(共享架構)儲存廠商和生態夥伴。(ta/da)
AASTOCKS新聞