美股
基金
外匯、加密貨幣
滬、深港通
港股
 
納斯達克
 
恆生指數
 
道瓊斯
 
標準普爾
 
 
新聞分享
如欲分享新聞,請填寫收件人及閣下之電郵,再按「送出」。*必需填寫
收件者電郵*
請用分號「;」分隔不同電郵地址,例子:a@a.com;b@b.com
閣下之電郵*
分享內容
再創歷史!DeepSeek梁文鋒登《Nature》封面 打破大模型評審空白 R1訓練成本僅29.4萬鎂
今年 1 月,梁文鋒帶領團隊打造的 DeepSeek-R1 相關論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinf...
重設
送出
視窗將於5秒內關閉
再創歷史!DeepSeek梁文鋒登《Nature》封面 打破大模型評審空白 R1訓練成本僅29.4萬鎂
鉅亨網新聞
推薦
2
利好
0
利淡
2
 
 

今年 1 月,梁文鋒帶領團隊打造的 DeepSeek-R1 相關論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》發布,如今該成果成功登上全球頂刊期刊《Nature》封面,並介紹梁文鋒帶隊用高度強化學習 (RL) 為大模型推理能力開闢新路徑的高度成就。

開源之後,R1 在 Hugging Face 成為最受歡迎的模型,下載量突破 1090 萬次,而且它是全球首個經過同行評審的主流大模型。

從一篇 arXiv 論文到 Nature 封面,DeepSeek 團隊再次憑藉著實力為 AI 推理的未來鋪路。值得一提的是,補充資料首次公開 R1 訓練成本,僅 29.4 萬美元,即便加上約 600 萬美元的基礎模型成本,也遠低於 OpenAI、Google 訓練 AI 的成本。

發表在《自然》雜誌的新版 DeepSeek-R1 論文,與今年 1 月未經同行評審的初版有較大差異,披露了更多模型訓練的細節,並正面回應了模型發佈之初的蒸餾質疑。

研究團隊的出發點大膽且純粹,他們徹底拋開對人類推理軌蹟的依賴,選擇強大的基礎模型 DeepSeek - V3 Base,跳過傳統的 SFT 階段,採用極其簡潔的強化學習框架。在此框架中,只告知模型任務格式,即回答需包含被 標籤包裹的「思考過程」和被 < answer > 標籤包裹的「最終答案」,以及獎勵信號,根據最終答案是否正確給予獎勵,不考慮思考方法。

在沒有解題步驟的對錯評判,沒有思維方式的引導下,DeepSeek-R1 Zero 開啟「野蠻生長」。以 AIME 2024 為例,其平均解題準確率 (pass@1) 從最初的 15.6% 飆升至 77.9%,配合「自洽解碼」技術更是高達 86.7%,遠超 AIME 競賽中所有人類選手的平均水準。

在能力提升過程中,R1 Zero 展現出自我進化行為,其「思考時間」自主增加,生成的文本長度穩定上升,學會用更長「思維鏈」探索解題策略,也湧現出高階推理策略,如自我反思、系統性探索替代解法等。
OPEN
研究人員也觀察到模型出現「頓悟時刻」,反思過程中使用「wait」一詞頻率急劇增加,標誌著推理模式的明顯轉變,詮釋了強化學習的魅力。

為解決 R1 Zero 可讀性差、通用能力平平的問題,團隊設計多階段訓練流程。經過冷啟動、多輪強化學習和大規模監督微調等,DeepSeek - R1 在多個基準測試中表現提升 17% - 25%,在高難度推理任務上保持頂尖水準。

在訓練方法上,團隊採用 GRPO 演算法,相較於 PPO 顯著降低資源消耗且穩定高效。獎勵設計採雙軌制,推理任務用基於規則的獎勵,通用任務用基於模型的獎勵,避免「獎勵投機」。訓練過程精心設計,每個階段都有不同重點和參數調整。

不過,DeepSeek - R1 也存在能力限制,如在結構化輸出和工具使用方面有欠缺,對提示詞敏感,強化學習在軟體工程任務上效率不高等。同時,純強化學習面臨獎勵投機挑戰。

儘管年初 OpenAI 指責可能使用 ChatGPT 輸出訓練,但團隊否認稱 DeepSeek-V3-Base 的預訓練數據全部來源於網路,反映自然數據分佈,「可能包含由先進模型 (如 GPT-4) 生成的內容」,但 DeepSeek-V3-Base 並沒有引入在合成數據集上進行大規模監督蒸餾的「冷卻」階段。

DeepSeek-V3-Base 的數據截止時間為 2024 年 7 月,當時尚未發佈任何公開的先進推理模型,這進一步降低了從現有推理模型中無意蒸餾的可能性。

更重要的是,DeepSeek-R1 論文的核心貢獻也就是 R1-Zero,不涉及從先進模型進行蒸餾,其強化學習 (RL0 元件是獨立訓練的,不依賴於 GPT-4 或其他類似能力模型的輸出或指導。

《Nature》審查者和其他研究人員對 DeepSeek 的推理方法表示認可,認為其開啟了一場革命,為改進現有大語言模型 (LLM) 推理能力提供了新方向。

8 位審稿人共提出上百條具體意見,既包括對單詞單複數等細節的修改,也涵蓋對論文中將 AI「擬人化」的警示,以及對數據污染和模型安全性問題的關注,例如在修改意見中,審稿人敏銳地捕捉到了「將 DeepSeek-R1-Zero 開源」這一表述的模糊性,並提醒 DeepSeek,「開源」這一概念的界定仍存爭議,在使用相關表述時需要格外注意。

這位審稿人還要求 DeepSeek 在論文中附上 SFT 和 RL 數據的連結,而不僅僅是提供數據樣本。

作為國產開源 AI 模型走向世界的代表,DeepSeek-R1 在全球開源社群中擁有極高的口碑,而在本次登上《自然》雜誌封面後,DeepSeek 補充了這一模型的更多資訊,為開源社區提供了科研參考、模型復現思路以及應用支持。

《Nature》呼籲更多的 AI 公司將其模型提交給同行進行評審,確保其聲明經過驗證和澄清。在此背景下,DeepSeek 的開源模式不僅展現國產 AI 的技術實力,也有望成為全球 AI 產業在科學研究透明度方面的參考典範。

新聞來源 (不包括新聞圖片): 鉅亨網
公佈日期
指標
暫時沒有相關新聞。
 
美股網站地圖
支援電郵: support@aastocks.com
阿斯達克網絡信息有限公司 (AASTOCKS.COM LIMITED) 版權所有,不得轉載
免責聲明
閣下明確同意使用本網站/應用程式的風險是由閣下個人承擔。

AASTOCKS.com Ltd、香港交易所資訊服務有限公司、中國投資信息有限公司、深圳證券信息有限公司、Nasdaq, Inc.、其控股公司及/或該等控股公司的任何附屬公司、或其資訊來源及/或其他第三方數據供應商均竭力確保所提供資訊的準確和可靠度,但不能保證其絕對準確和可靠,且亦不會承擔因任何不準確或遺漏而引起的任何損失或損害的責任(不管是否侵權法下的責任或合約責任又或其他責任)。

AASTOCKS.com Ltd、香港交易所資訊服務有限公司、中國投資信息有限公司、深圳證券信息有限公司、Nasdaq, Inc.、其控股公司及/或該等控股公司的任何附屬公司、或其資訊來源及/或其他第三方數據供應商均對資訊不作任何明示或隱含的要約、陳述或保證 (包括但不限於可銷售性及特殊用途合適性的資訊保證) 。

AASTOCKS.com Ltd、香港交易所資訊服務有限公司、中國投資信息有限公司、深圳證券信息有限公司、Nasdaq, Inc.、或其控股公司及/或該等控股公司的任何附屬公司、或其資訊來源及/或其他第三方數據供應商不會就任何原因導致的中斷、不準確、錯誤或遺漏或因此而造成的任何損害賠償(不論直接或間接、相應而生、懲罰性或懲戒性)對任何人承擔責任。

AASTOCKS.com Ltd不負責,亦不承擔任何由於不可抗力的事故或在AASTOCKS.com Ltd不可合理控制的情況下導致的損失或損害,如颱風、暴雨、其他自然災難、政府或有關機構的限制、騷動、戰爭、病毒爆發,網絡故障或電信故障,引致AASTOCKS.com Ltd不能履行協議內的責任或提供服務。

Morningstar 免責聲明:版權所有©2020 Morningstar,Inc。保留所有權利此處包含的資料,數據,分析和意見(“信息”):(1)包含Morningstar及其內容提供者的專營資料; (2)除特別授權外,不得複製或轉載; (3) 不構成投資建議; (4)僅供參考,(5)並未為所載資料的完整性、準確性及時間性作出保證。Morningstar對於閣下使用任何相關資料而作出的任何有關交易決定、傷害及其它損失均不承擔任何責任。 請在使用所有資料前作出核實,並且在諮詢專業投資顧問意見前勿作任何投資決定。 過往業績並不代表將來表現,任何投資項目的價值及所得收入皆可升可跌。

本網站/應用程式包含的內容和信息乃根據公開資料分析和演釋,該公開資料,乃從相信屬可靠之來源搜集,這些分析和信息並未經獨立核實和AASTOCKS.com Limited並不保證他們的準確性、完整性、實時性或者正確性。

在本網站/應用程式的資料、金融市場數據、報價、圖表、統計數據、匯率、新聞、研究、分析、購買或者出售評分、財金教學及其他資訊僅作參考使用,在根據資訊執行證券或任何交易前,應諮詢獨立專業意見,以核實定價資料或獲取更詳細的市場信息。AASTOCKS.com Limited不應被視為游說任何訂戶或訪客執行任何交易,閣下須為所有跟隨在本網站/應用程式的資料、評論和購買或出售評分執行的交易負責。

AASTOCKS.com Limited之信息服務基於「現況」及「現有」的基礎提供,網站/應用程式的信息和內容如有更改恕不另行通知。AASTOCKS.com Limited有權但無此義務,改善或更正在本網站/應用程式的任何部分之錯誤或疏漏。

用戶在沒有AASTOCKS.com Limited明確的書面同意情況下,不得以任何方式複製、傳播、出售、出版、廣播、公佈、傳遞資訊內容或者利用在本網站/應用程式的信息和內容作商業用途。

投資涉及風險。 閣下可自行决定利用本網站的財金教學作學術參考用途,但 AASTOCKS.com Limited不能並不會保證任何在本網站/應用程式現在或未來的購買或出售評論和訊息會否帶來贏利。過往之表現不一定反映未來之表現,AASTOCKS.com Limited不可能作出該保證及用戶不應該作出該假設。

AASTOCKS.com Limited也許連結訂戶或訪客至其有興趣的網站,但AASTOCKS.com Limited只提供此服務給訂戶或訪客並不為此安排負責。

AASTOCKS.com Limited對於任何包含於、經由、連結、下載或從任何與本網站/應用程式有關服務所獲得之資訊、內容或廣告,不聲明或保證其內容之正確性或可靠性。 對於閣下透過本網站/應用程式上之廣告、資訊或要約而展示、購買或取得之任何產品、資訊資料,本公司亦不負品質保證之責任。

AATV是AASTOCKS.com Limited旗下的視頻網站平台。

閣下確認:(i) AATV只為提供資訊,並不為了任何交易目的;(ii) AATV節目內容以及其提供的資料並不構成任何AASTOCKS為售賣任何證券作出招攬、提出要約、意見或推薦,或對任何證劵或投資的收益或是否合適提供法律、稅務、會計、或投資意見或服務;及(iii)AATV並非為任何人士或法律實體在其他司法管轄區或國家使用,而在當地可能因該使用或分發而違反當地法律或法規。

AATV中節目內容中的個人意見和觀點僅供參考及討論,亦並不代表AASTOCKS.com Limited的立場。投資者必須按其本身投資目標及財務狀況自行作出投資決定。AASTOCKS.com Limited不對以下任何情況對閣下或任何人直接或間接負責:(i)AATV的不准確性,錯誤或遺漏,包括但不限於報價和財務數據; (ii)AATV中節目傳輸的延遲,錯誤或中斷; (iii)閣下由AATV中節目內容招致任何損失。

我們保留權利不時更改本免責聲明並於本網站/應用程式刊登更新版本。閣下必須定期查閱於本網站/應用程式刊登的資訊,以確保您即時知悉任何有關的改動。 如閣下於本免責聲明更新後仍繼續使用本網站/應用程式,即代表閣下同意接受更改後的本免責聲明的約束。

本免責聲明應受中華人民共和國香港特別行政區(「香港」)法律管限。閣下同意接受香港法院的專屬司法管轄權管轄。

本免責聲明的中英原文如有任何岐異,一切以英文原文為準。

更新日期為: 2023年1月6日