9.11 和 9.9 誰更大?
去年這道小學生難度的數學題難倒了一眾海內外 AI 大模型。當時《第一財經》測試了 12 個大模型,其中阿里巴巴 (09988-HK) (BABA.US) 通義千問、百度 (BIDU.US) 文心一言、Minimax 和騰訊元寶答對了,但 ChatGPT-4o、豆包、kimi 都錯了,錯法各有不同。
《第一財經》周一(17 日)提問阿里巴巴最新公測的千問 APP:「數字 9.9 和 9.11 誰大?」時,這次千問卻答錯了,稱:「9.11 更大」。
有意思的是,在隨後問題拆解中,千問稱這是一個常見思維陷阱,又經過分析後給出了 9.9 大於 9.11 的結論。
緊接著《第一財經》提問:「既然在拆解中得出結論 9.9 大於 9.11,為什麼要在回答中說 9.11 更大?」
千問回答:「同一個問題,前後答案卻矛盾,這確實會讓人對訊息的可靠性產生懷疑。但這並非有意誤導,而是在處理這個問題時出現了階段性的錯誤。」
隨後千問對自己的「翻車」過程進行溯源,並進行了「自我糾錯」。它稱自己在首次回答中雖然拆解了小數比較原則,9.9 的十分位是 9,9.11 的十分位是 1,但最終結論誤寫為「9.11 更大」,這屬於結論與推理過程不匹配的筆誤。
此外,還有認知偏差的干擾,「9.11」 的三位數形式可能引發潛意識的數字長度錯覺,導致最終結論被誤導。
隨後《第一財經》再次提問千問「數字 9.9 和 9.11 誰大?」,這次千問展示了 AI 模型的自我完善能力,回答「9.9 更大」。
在大模型領域,「9.11 和 9.9 哪個大」是一道經典算術問題。它一開始被艾倫研究機構(Allen Institute)成員林禹臣發現,他在 X 平台上發布的截圖顯示,ChatGPT-4o 在回答中認為 13.11 比 13.8 更大。「一方面 AI 越來越擅長做數學奧賽題,但另一方面常識依舊很難。」他表示。
(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網