新聞分享
如欲分享新聞,請填寫收件人及閣下之電郵,再按「送出」。*必需填寫
收件者電郵*
請用分號「;」分隔不同電郵地址,例子:a@a.com;b@b.com
閣下之電郵*
分享內容
小米開源首代機器人VLA大模型 雷軍:很早開始布局
小米(01810)正式發布並開源首代機器人VLA(Vision-Language-Action)大模型「Xiaomi-Robotics-0」。小米創辦人雷軍發文表示,Xiaomi-Roboti...
重設
送出
視窗將於5秒內關閉
小米開源首代機器人VLA大模型 雷軍:很早開始布局
關閉
滙港資訊
推薦
15
利好
30
利淡
11
 
 

<匯港通訊> 小米(01810)正式發布並開源首代機器人VLA(Vision-Language-Action)大模型「Xiaomi-Robotics-0」。

小米創辦人雷軍發文表示,Xiaomi-Robotics-0是兼具視覺語言理解與高性能實時執行能力的具身智慧VLA模型。在主流的Libero、Calvin和SimplerEnv測試集,包括所有的Benchmark和30種模型對比中,均取得當前最優的成績。他還指出,小米很早開始布局機器人業務,歡迎更多優秀同學加入機器人團隊。

據介紹,該模型擁有47億參數,核心解決了傳統VLA模型推理延遲、真機動作不連貫的行業痛點,兼具視覺語言理解與高性能即時執行能力,可在消費級顯卡上實現即時推理,在模擬測試和真機任務中均刷新多項SOTA(State-of-the-Art,是指在特定任務中目前表現最好的方法或模型)成績。

小米技術在官方微信表示,Xiaomi-Robotics-0採用主流的Mixture-of-Transformers(MoT)架構,通過「視覺語言大腦(VLM)+動作執行小腦(Action Expert)」的組合,實現「感知-決策-執行」的高效閉環,兼顧通用理解與精細動作控制。

其中,「視覺語言大腦」以多模態VLM大模型為底座,負責理解人類的模糊指令(如「請把毛巾疊好」),並從高清視覺輸入中捕捉空間關係;「動作執行小腦」嵌入多層Diffusion Transformer(DiT),不直接輸出單一動作,而是生成一個「動作塊」(Action Chunk),並通過流匹配(Flow-matching)技術確保動作的精準度。

為避免模型學動作丟失基礎理解能力,小米設計了「跨模態預訓練+後訓練」的兩階段訓練方法,讓模型既懂常識又精通體力活。

小米已將Xiaomi-Robotics-0的技術主頁、開源代碼、模型權重全量開放,相關資源可分別在GitHub、Hugging Face等平台獲取。 (ST)

新聞來源 (不包括新聞圖片): 滙港資訊
AASTOCKS.com LIMITED 版權所有,不得轉載