返回    放大 +    縮小 -
阿里通義實驗室智能計算團隊推出新算法FIPO
推薦
32
利好
42
利淡
12
格隆匯新聞
4月7日|阿里通義實驗室智能計算團隊宣佈推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL機制,獎勵關鍵Token,解決純強化學習(Pure RL)訓練中“推理長度停滯”難題。據該團隊介紹,在32B規模的純RL設定下,率先實現對o1-mini與同規模DeepSeek-Zero-MATH的性能反超。
新聞來源 (不包括新聞圖片): 格隆匯