小米開源首代機器人VLA大模型雷軍:很早開始布局

關閉

滙港資訊

推薦

利好

利淡

沽空

股價

AASTOCKS旗下aacat開證券戶口送NVDA

<匯港通訊> 小米(01810)正式發布並開源首代機器人VLA(Vision-Language-Action)大模型「Xiaomi-Robotics-0」。

小米創辦人雷軍發文表示，Xiaomi-Robotics-0是兼具視覺語言理解與高性能實時執行能力的具身智慧VLA模型。在主流的Libero、Calvin和SimplerEnv測試集，包括所有的Benchmark和30種模型對比中，均取得當前最優的成績。他還指出，小米很早開始布局機器人業務，歡迎更多優秀同學加入機器人團隊。

據介紹，該模型擁有47億參數，核心解決了傳統VLA模型推理延遲、真機動作不連貫的行業痛點，兼具視覺語言理解與高性能即時執行能力，可在消費級顯卡上實現即時推理，在模擬測試和真機任務中均刷新多項SOTA(State-of-the-Art，是指在特定任務中目前表現最好的方法或模型)成績。

小米技術在官方微信表示，Xiaomi-Robotics-0採用主流的Mixture-of-Transformers(MoT)架構，通過「視覺語言大腦(VLM)+動作執行小腦(Action Expert)」的組合，實現「感知-決策-執行」的高效閉環，兼顧通用理解與精細動作控制。

其中，「視覺語言大腦」以多模態VLM大模型為底座，負責理解人類的模糊指令(如「請把毛巾疊好」)，並從高清視覺輸入中捕捉空間關係；「動作執行小腦」嵌入多層Diffusion Transformer(DiT)，不直接輸出單一動作，而是生成一個「動作塊」(Action Chunk)，並通過流匹配(Flow-matching)技術確保動作的精準度。

為避免模型學動作丟失基礎理解能力，小米設計了「跨模態預訓練+後訓練」的兩階段訓練方法，讓模型既懂常識又精通體力活。

小米已將Xiaomi-Robotics-0的技術主頁、開源代碼、模型權重全量開放，相關資源可分別在GitHub、Hugging Face等平台獲取。 (ST)

新聞來源 (不包括新聞圖片): 滙港資訊

免責聲明 : 以上資訊僅供參考。AASTOCKS.com Limited對以上資訊的內容不承擔任何責任，對其準確性，完整性，品質，及時性，或可靠性不作任何陳述或予以認可，並明確表示不對任何由本資訊的全部或部分內容引致之損失或損害承擔任何法律責任或為其引起的損失負責。以上資訊或反映了相關文章或專題作者的的個人意見和觀點，並不代表AASTOCKS.com Limited的立場。以上資訊的任何內容均不構成AASTOCKS為任何投資作出招攬、提出要約、意見或推薦，或對任何證劵或投資的收益或是否合適提供法律、稅務、會計、或投資意見或服務。投資者必須按其本身投資目標及財務狀況自行作出投資決定。

免責聲明