綜合外媒周一 (29 日) 報導,中國 AI 新創公司 DeepSeek 發布實驗性新模型 V3.2-Exp,新模型採用創新的「稀疏注意力」機制,可降低運算成本並提升長文本處理能力,同時 API 價格調降超過 50%。
V3.2-Exp 模型採用 DeepSeek 稀疏注意力 (DeepSeek Sparse Attention, DSA) 機制,該公司表示這項技術能削減運算成本,並提升某些類型的模型效能。
DeepSeek 周一在社群平台 X 上發文表示,正將 API 價格調降「超過 50%」。該公司指出,新版本旨在展現其在提升長文本序列處理效率方面的研究成果。
儘管 DeepSeek 的次世代架構不太可能像 1 月份的前幾代版本那樣撼動市場,但若能重現 R1 和 V3 的成功,仍可能對阿里巴巴 (BABA.US) 旗下通義千問等國內競爭對手,以及 OpenAI 等美國同業構成重大壓力。
華為晶片支援新模型
華為周一也宣布,旗下產品將支援 DeepSeek 的最新模型更新。
DeepSeek 已表示,其最新版本模型支援 FP8(浮點數 8 位元) 架構,同時正在開發對 BF16 的支援。理論上,FP8 能節省記憶體並加快運算速度。
AI 模型需要處理數百萬個數字,使用 FP8 和 BF16 等較小格式可在速度和準確度之間取得平衡,讓大型模型更容易在有限硬體上運行。雖然 FP8 精確度不高,但被認為適用於許多 AI 任務。BF16(腦浮點數 16 位元) 則被視為在訓練 AI 模型時更為精確。
加入中國 AI 價格戰
DeepSeek 表示正在調降軟體工具價格,加入其他中國新創公司削價搶市的行列。
今年稍早,DeepSeek 的開創性 R1 模型以其成熟度震驚矽谷,該公司目前正致力於開發新產品,以鞏固其在中國 AI 領域的領先地位。
(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網