新聞分享
如欲分享新聞,請填寫收件人及閣下之電郵,再按「送出」。*必需填寫
收件者電郵*
請用分號「;」分隔不同電郵地址,例子:a@a.com;b@b.com
閣下之電郵*
分享內容
智譜發佈GLM-5.1高速版API,刷新全球大模型API速度紀錄
5月22日|智譜近日推出GLM-5.1高速版API“GLM-5.1-highspeed”,其模型輸出速度達到400 tokens/s,刷新了當前全球大模型廠商API的速度上限。長期以來,高速模型幾乎總...
重設
送出
視窗將於5秒內關閉
智譜發佈GLM-5.1高速版API,刷新全球大模型API速度紀錄
關閉
格隆匯新聞
推薦
7
利好
10
利淡
3
 
 

5月22日|智譜近日推出GLM-5.1高速版API“GLM-5.1-highspeed”,其模型輸出速度達到400 tokens/s,刷新了當前全球大模型廠商API的速度上限。

長期以來,高速模型幾乎總是輕量級模型,但GLM-5.1高速版打破了這一行業慣例。它首次在國產大模型中,將旗艦級能力與極致低延遲同時帶入生產環境,用户無需再為響應速度犧牲模型質量。

實測顯示,在AI編程場景中,寫代碼彷彿開啟了10倍速,模型能夠一邊理解工程上下文,一邊持續生成代碼與修改方案;在3D遊戲中,玩家控制一個角色在3D地圖裏移動並輸入文字,模型會根據輸入的文字瞬時建模,場景實時改變,此前因延遲而無法實現的全新產品形態,開始真正具備落地可能;在交互界面上,在用户提出需求的那一刻,模型可以即時生成恰好匹配該需求的工具與交互,甚至可以做出意圖判斷。

實現這一速度的核心是TileRT高性能推理引擎。該引擎由智譜GLM團隊與TileRT團隊聯合打造,在推理引擎、調度系統與底層基礎設施三個層面進行了系統級優化。其設計思路是徹底拋棄Runtime層的動態調度,在編譯期(AOT)將整個計算圖靜態編排為一個常駐GPU的persistent Engine Kernel。

目前,GLM-5.1高速版適用於AI編程、實時交互、商業決策、實時語音等速度敏感場景,並通過智譜MaaS平台向部分企業客户開放。

新聞來源 (不包括新聞圖片): 格隆匯
AASTOCKS.com LIMITED 版權所有,不得轉載