DeepSeek抄襲Google Gemini？開發者：可能是基於Gemini輸出訓練的

關閉

鉅亨網新聞

推薦

利好

利淡

沽空

股價

外界懷疑，中國人工智慧（AI）實驗室 DeepSeek 未經授權使用 Google (GOOGL.US) Gemini 系列模型的輸出內容作為訓練依據。DeepSeek 於上週正式推出升級版推理模型 R1-0528，在多項數學與程式碼基準測試中展現優異效能。然而，該公司未公開訓練資料來源。

來自澳洲墨爾本的 AI 開發者 Sam Paech 在 X 平台指出，R1-0528 模型偏好使用與 Google 最新的 Gemini 2.5 Pro 相似的詞彙與語句結構。他認為，這顯示 DeepSeek 有可能將 Gemini 模型的輸出結果作為訓練資料的一部分。

另一位匿名開發者、同時也是 AI 言論評測工具 SpeechMap 的創辦人表示，DeepSeek 模型在推理過程中所生成的「推理痕跡」（reasoning traces）讀起來「就像是 Gemini 產出的內容」，進一步加強了 DeepSeek 資料來源的可疑性。

這並非 DeepSeek 首度被指控使用競爭對手的資料。早在 2023 年 12 月，開發者就發現 DeepSeek 的 V3 模型經常自稱為 ChatGPT，引發外界猜測其是否使用了來自 OpenAI 的聊天記錄進行訓練。

根據《金融時報》報導，OpenAI 曾公開指出，DeepSeek 可能透過「資料蒸餾法」（Distillation）從更強大的語言模型中提取資料來訓練自家 AI 模型。

雖然此技術雖常見於 AI 開發圈，但根據 OpenAI 條款，使用其模型輸出打造競爭性模型已屬違規行為。

《彭博》補充指出，OpenAI 的合作夥伴微軟 (MSFT.US) 在 2024 年底偵測到大量資料透過 OpenAI 開發者帳號外洩，並疑似與 DeepSeek 有關聯。

不過，專家指出，AI 模型常使用相似語言風格也可能源自網路內容被「AI 汙染」，即網路上大量充斥著 AI 自動生成的資料，讓乾淨純粹的人類內容越來越稀少，也讓模型訓練資料的過濾更具挑戰性。

AI2 非營利研究機構的研究員 Nathan Lambert 表示：「如果我是 DeepSeek，我也會從效能最強的 API 模型生成大量合成資料。」他指出，DeepSeek 目前雖缺乏 GPU 算力，但資金充足，此方式可有效「放大計算資源」。

為防範資料被濫用，AI 公司已陸續加強防護機制。OpenAI 自 4 月起實施身份驗證制度，要求使用高階模型的企業須提交政府核發證件，而中國地區不在支援名單之列。

Google 則開始將其開發平台上的模型「推理痕跡摘要化」，降低被擷取訓練仿製模型的風險。Anthropic 也在 5 月宣布採取類似措施，以維護技術競爭優勢。

截至目前為止，Google 官方尚未針對此事發表回應。

(美股為即時串流報價； OTC市場股票除外，資料延遲最少15分鐘。)

新聞來源 (不包括新聞圖片): 鉅亨網

免責聲明 : 以上資訊僅供參考。AASTOCKS.com Limited對以上資訊的內容不承擔任何責任，對其準確性，完整性，品質，及時性，或可靠性不作任何陳述或予以認可，並明確表示不對任何由本資訊的全部或部分內容引致之損失或損害承擔任何法律責任或為其引起的損失負責。以上資訊或反映了相關文章或專題作者的的個人意見和觀點，並不代表AASTOCKS.com Limited的立場。以上資訊的任何內容均不構成AASTOCKS為任何投資作出招攬、提出要約、意見或推薦，或對任何證劵或投資的收益或是否合適提供法律、稅務、會計、或投資意見或服務。投資者必須按其本身投資目標及財務狀況自行作出投資決定。

免責聲明