2025-06-06 15:09:20　新聞來源 : 科技島
回應

DeepSeek最新AI模型「R1-0528」被發現偷用Gemini資料做訓練

中國人工智慧新創公司DeepSeek近期再度引發國際關注，根據美國科技媒體《TechCrunch》報導，DeepSeek上週悄悄推出最新升級版R1推理AI模型「R1-0528」，並在多項數學與程式設計評測中取得優異成績，不過，DeepSeek並未公開說明該模型訓練時所使用的資料來源，有AI研究人員發現，DeepSeek此次升級的R1-0528模型，至少部分訓練資料可能來自Google旗下AI家族Gemini。記者鄧天心／綜合報導

[caption id="attachment_176087" align="aligncenter" width="1024"]
DeepSeek最新AI模型「R1-0528」被發現偷用Gemini資料做訓練
DeepSeek R1-0528此次升級，在數學、邏輯、程式設計等多項國際評測中表現亮眼，但被不少開發者發現模型偏好與Google Gemini相似，被懷疑非法取用Gemini的資料做訓練。（圖／DeepSeek官方網站）[/caption]

更多新聞：DeepSeek低調升級R1 性能直追OpenAI與Google

墨爾本開發者Sam Paech在社群平台X上公開表示，他發現DeepSeek新模型偏好使用與Google Gemini 2.5 Pro相似的詞語與表達方式，認為這可能是訓練資料來自Gemini的證據。

雖然這並非直接「鐵證」，但另一位以化名「SpeechMap」活躍於AI社群的開發者也觀察到，DeepSeek模型在推理過程產生的「思路」與Gemini模型極為相似。這進一步加深外界對DeepSeek訓練資料來源的疑慮。

事實上，這並非DeepSeek首次被質疑使用競爭對手的AI資料進行訓練。去年12月，就有開發者發現DeepSeek的V3模型經常自稱是OpenAI的ChatGPT，暗示該模型可能使用了ChatGPT的對話紀錄進行訓練。

今年初，《金融時報》報導，OpenAI已發現證據顯示DeepSeek疑似採用「知識蒸餾」（distillation）技術，藉由提取更強大AI模型的資料來訓練自家模型，根據《彭博》報導，OpenAI的合作夥伴兼最大投資者微軟（Microsoft）也在2024年底偵測到大量資料透過OpenAI開發者帳戶被外流，OpenAI懷疑這些帳戶與DeepSeek有關。

雖然知識蒸餾在AI業界並非罕見，但OpenAI的服務條款明確禁止用戶利用其模型產出資料來開發競爭產品。

專家提醒，許多AI模型確實會出現自我認知錯亂或使用類似詞彙的情況，這主要是因為現今網路充斥大量AI生成內容，內容農場、機器人大量在Reddit、X等平台製造垃圾訊息，導致AI訓練資料品質日益下降。

DeepSeek R1-0528此次升級，在數學、邏輯、程式設計等多項國際評測中表現亮眼，甚至逼近OpenAI、Google等頂尖專有模型的水準，不過，訓練資料來源的爭議，也讓這家中國AI新創持續成為國際關注焦點。

新聞關鍵字： AI、DeepSeek、EPS、google、人工智慧、天心、美國

記者：鄧天心
更多科技新聞 »

週六

週日

DeepSeek最新AI模型「R1-0528」被發現偷用Gemini資料做訓練

DeepSeek最新AI模型「R1-0528」 被發現偷用Gemini資料做訓練

DeepSeek最新AI模型「R1-0528」被發現偷用Gemini資料做訓練