新聞分享
如欲分享新聞,請填寫收件人及閣下之電郵,再按「送出」。*必需填寫
收件者電郵*
請用分號「;」分隔不同電郵地址,例子:a@a.com;b@b.com
閣下之電郵*
分享內容
華為憋了一年的AI大招 讓推理速度暴增90%的UCM技術是什麼?
中國科技巨擘華為今 (12) 日在 2025 金融 AI 推理應用落地與發展論壇上正式發表 AI 推理創新技術 UCM(推理記憶資料管理器),並計劃下月正式開源 UCM。什麼是 UCM?解決 AI...
重設
送出
視窗將於5秒內關閉
華為憋了一年的AI大招 讓推理速度暴增90%的UCM技術是什麼?
關閉
鉅亨網新聞
推薦
2
利好
4
利淡
2
 
 

中國科技巨擘華為今 (12) 日在 2025 金融 AI 推理應用落地與發展論壇上正式發表 AI 推理創新技術 UCM(推理記憶資料管理器),並計劃下月正式開源 UCM。

什麼是 UCM?解決 AI 回應慢又貴的問題

想像一下,當你問 AI 問題時,它需要「思考」很久才回答,而且運算成本很高。UCM 就像給 AI 裝了一個「超強記憶系統」,讓它能更快回應、處理更長的對話,同時大幅降低成本。

華為副總裁周躍峰指出,目前 AI 推理面臨三大問題:「推不動」(輸入內容太長超出處理範圍)、「推得慢」(回應速度太慢)、「推得貴」(運算成本太高)。

UCM 透過「分層記憶」概念解決這些痛點,就像人腦會把常用資訊放在容易取得的地方,不常用的資訊存在深層記憶中。

KV Cache 技術突破 記憶容量從 GB 躍升至 PB 級

UCM 的核心是以 KV 快取 (KV Cache) 和記憶管理為中心的推理加速技術。KV 快取是 AI 模型在對話過程中儲存上下文資訊的關鍵技術,過去受限於高頻寬記憶體 (HBM) 容量,現在 UCM 能將 AI 的記憶容量提升百萬倍,從原本只能記住少量對話內容,擴展到可以記住海量的歷史資訊。

UCM 將 AI 推理系統的記憶分為三層:即時記憶資料放在 HBM 中、短期記憶資料放在 DRAM、長期記憶放在共享專業儲存中,透過智慧分級實現最佳效能。

三大技術突破 效能大幅提升

UCM 的核心技術包括三個部分:

  1. 推理引擎外掛程式:像萬用轉接頭,可以連接各種不同的 AI 系統
  2. 智慧快取管理:支援多級 KV 快取管理及創新加速演算法,自動決定哪些資料要放在哪個層級的記憶體中
  3. 高速存取適配器:提供高效能 KV 快取存取,加速資料讀取,減少等待時間

經測試驗證,華為宣稱 UCM 能帶來顯著改善包含:一,首次回應時間最高縮短 90%;二,系統處理量最大提升 22 倍;三,可處理內容長度增加 10 倍;四,Token(AI 理解和處理文字的最小單位)經濟性提升 2 倍以上

創新聯想演算法 讓 AI 越用越聰明

UCM 還導入受打字輸入法聯想啟發的新聯想演算法,就像手機的智慧輸入功能,會根據你平常的使用習慣預測你想說什麼,讓 AI 能一次輸出多個詞彙,而不用一個字一個字慢慢生成。這項技術讓 AI「存得越多推得越快」,比傳統預測加速效果更適合企業應用場景。

華為數據儲存產品線 AI 儲存首席架構師李國杰表示,相較於業界現有方案只有傳統 Prefix Cache 技術,UCM 提供更豐富、可靠且加速效果更好的演算法庫,能在各種場景下自動切換和適應。

瞄準 Agentic AI 時代 持續技術演進

UCM 著眼於未來 Agentic AI 時代的需求設計。除了今年發布的推理加速套件,華為還將持續建構面向 Agent 知識感知的多模態檢索加速能力,以及未來 Agent 原生記憶的管理和加速能力。

李國杰透露,UCM 從去年 6-7 月開始孵化,至今約一年時間,僅演算法方面就有百人級團隊投入,未來將面向 Agentic AI 做更深入演進。

開源計畫 推動產業發展

華為計劃 9 月在魔擎社區率先開源 UCM,隨後逐步貢獻給主流 AI 開發社區。華為強調,透過開放這項技術,希望與產業界共同建立更成熟的 AI 推理生態系統。

中國信通院專家指出,目前 AI 發展重心正從「訓練模型」轉向「實際應用推理」,而 KV 快取為核心的記憶體管理將是未來 AI 系統優化的關鍵技術。

UCM 的推出標誌著 AI 推理技術邁向新階段,不僅能讓 AI 回應更快、處理能力更強,也為 AI 技術在各行業的大規模應用奠定基礎。

新聞來源 (不包括新聞圖片): 鉅亨網
AASTOCKS.com LIMITED 版權所有,不得轉載