新聞分享
如欲分享新聞,請填寫收件人及閣下之電郵,再按「送出」。*必需填寫
收件者電郵*
請用分號「;」分隔不同電郵地址,例子:a@a.com;b@b.com
閣下之電郵*
分享內容
AI教父Yann LeCun放出磨了20年的大招:Meta開源V-JEPA 2世界模型
Meta(META.US) 近日發最新里程碑式的人工智慧模型 V-JEPA 2(Video Joint Embedding Predictive Architecture 2),以高達 10 億參數的...
重設
送出
視窗將於5秒內關閉
AI教父Yann LeCun放出磨了20年的大招:Meta開源V-JEPA 2世界模型
關閉
鉅亨網新聞
推薦
1
利好
0
利淡
1
 
 

Meta(META.US)      近日發最新里程碑式的人工智慧模型 V-JEPA 2(Video Joint Embedding Predictive Architecture 2),以高達 10 億參數的版本,在某些基準測試上展現出比輝達 Cosmos 快 30 倍的驚人推理速度,讓過去對「AI 教父」Yann LeCun(楊立昆) 的質疑聲浪瞬間平息。

這款基於 Vision Transformer 架構的世界模型,不僅是 LeCun 多年來倡導的 JEPA 路線的最新成果,更僅需 62 小時的機器人資料訓練,即可在完全陌生的環境下執行各種任務,預示著 AI 領域一場深刻的範式轉移。

V-JEPA 2 的成功 彰顯「反叛」的答案

長期以來,身為 Meta 首席 AI 科學家和圖靈獎得主的 Yann LeCun,一直是 AI 界最「叛逆」的聲音。在所有人追捧大語言模型(LLM)之際,他卻公開唱反調,直言 LLM 為「token 生成器」,並大膽預言五年內恐無人再使用。他甚至建議年輕開發者轉而研究下一代 AI 系統,克服 LLM 的局限性。這些看似「語出驚人」的言論,曾引來不少網友的嘲笑和質疑,認為他在資源豐富的實驗室中,LLM 的表現反而不如預期。

然而,V-JEPA 2 的發布,無疑為 LeCun 的「反叛」提供了最有力的答案。這款模型的成功,證明了 LeCun 的遠見:真正的智慧並非僅是產生看似合理的文本,而是對物理世界的深刻理解與預測能力。正如 LeCun 所言:「每次試圖透過訓練系統在像素層級預測影片來理解世界或建立世界心智模型的嘗試都失敗了。」而 V-JEPA 2 之所以成功,正是因為它選擇了一條不同的道路——在抽象表示空間中進行預測。

20 年磨一劍的世界模型

V-JEPA 2 並非 Meta 心血來潮之作,而是 LeCun 長達 20 年研究的積澱。他在 Meta 的部落格中透露:「透過訓練系統預測影片中將要發生的事情來理解世界如何運作的想法是非常古老的。我至少以某種形式研究了 20 年。」

O-omega.ai 解釋了 V-JEPA 2 的技術突破:它獨特地結合了超過一百萬小時的線上影片和目標真實世界數據,實現了零樣本機器人規劃,使得機器人能在陌生情況下預測和行動,無需事先重新訓練。

其聯合嵌入預測架構現在可以在影片序列上訓練,並在某些基準測試上產生比 Nvidia Cosmos 快 30 倍的推理速度。這種突破性的能力,僅需數小時的機器人互動數據便足以泛化技能,例如工具使用,這反映了其他模型罕見的「常識」適應能力,將機器人技術推向了新的效率前沿。

V-JEPA 2 基於先進的 Vision Transformer 架構,提供了多種模型規模以適應不同需求,包括:

  • ViT-L/16:3 億參數,256 分辨率
  • ViT-H/16:6 億參數,256 分辨率
  • ViT-g/16:10 億參數,256 分辨率
  • ViT-g/16(384 版):10 億參數,384 分辨率

這種架構選擇的關鍵在於,V-JEPA 2 與傳統生成式方法不同,它不在像素層級進行預測,而是在更為抽象的表示空間中進行。LeCun 對此解釋道:「與其預測影片中發生的所有事情,我們基本上是訓練系統學習影片的表示,並在該表示空間中進行預測。這種表示消除了影片中許多不可預測或無法弄清楚的細節。」

V-JEPA 2 在多個基準測試上都創造了新紀錄,其性能表現足以碾壓競爭對手:

視覺理解任務:

  • EK100(動作預測):39.7%,超越 PlausiVL 的 27.6%
  • SSv2(影片理解):77.3%,超越 InternVideo2-1B 的 69.7%
  • Diving48(動作辨識):90.2%,超越 InternVideo2-1B 的 86.4%
  • MVP(視訊問答):44.5%,超越 InternVL-2.5 的 39.9%
  • TempCompass(影片問答):76.9%,超越 Tarsier 2 的 75.3%

機器人控制任務:

  • 到達目標位置:100% 成功率(Cosmos 僅 80%)
  • 抓取杯子:60% 成功率(Octo 10%,Cosmos 0%)
  • 拾取並放置杯子:80% 成功率(Octo 10%,Cosmos 0%)
  • 拾取並放置盒子:50% 成功率(Octo 10%,Cosmos 0%)

V-JEPA 2 的卓越性能得益於其巧妙的兩階段訓練方法:

  • 自我監督預訓練: 編碼器和預測器透過自監督學習,從海量視訊資料中進行預訓練。Meta 利用掩蔽潛在特徵預測目標,藉由豐富的自然影片來引導模型理解和預測物理世界。
  • 機器人資料微調: 在少量機器人資料上進行微調,實現高效規劃。這種方法的精妙之處在於,無需收集大規模的專家機器人示範資料。

V-JEPA 2 的發布在社群引發熱烈討論:「JEPA 模型沉寂了很長一段時間,現在突然爆發!這是今天最好的消息」、「太棒了,我都不知道還有 JEPA 1,但架構越多越好。」

當然,也有人提出了深刻的問題,包括:V-JEPA 2 在陌生環境中規劃時如何處理對齊和價值規範,這對安全部署至關重要。

然而,這些討論並未削弱 V-JEPA 2 帶來的震撼。V-JEPA 2 的成功,正是對 LeCun 多年來堅持其「反叛」路線的最好證明。他用 20 年的堅持,證明了什麼叫「時間會給答案」。Meta 透過 V-JEPA 2,不僅為機器人技術開啟了新的篇章,更為整個 AI 領域指明了通往真正通用智慧的新方向。

開發者現在可以透過多種方式使用 V-JEPA 2,載入預處理器和不同規模的模型,進一步探索其應用潛力。這款新一代的世界模型,無疑將加速機器人在現實世界的部署和智能化進程。

(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)
新聞來源 (不包括新聞圖片): 鉅亨網
AASTOCKS.com LIMITED 版權所有,不得轉載