全新模型「幻覺度比以前更高」 ChatGPT自己這樣說

全新模型「幻覺度比以前更高」 ChatGPT自己這樣說
ChatGPT。(圖/達志/美聯社)

[周刊王CTWANT] OpenAI近日推出的新一代推理AI模型o3與o4-mini,這兩個模型雖在程式設計與數學領域展現更佳性能,卻在一項核心指標「幻覺度」上出現倒退。根據OpenAI內部測試與技術報告,這兩款新模型在處理任務時產生「幻覺」,也就是捏造或虛構資訊的頻率,竟高於先前的多數模型,包括o1、o1-mini與o3-mini,以及非推理導向的GPT-4o。

根據《Tech Crunch》報導指出,在OpenAI使用的內部評估基準PersonQA中,o3模型對33%的問題產生幻覺,幻覺度的產生機率為o1的兩倍(16%),與o3-mini相比,也是高出兩倍多(14.8%);而o4-mini的表現更為誇張,其回答中竟有48%為幻覺。這一實測顯示,即便技術演進帶來某些任務表現的提升,在資訊準確性方面卻未必同步改善,甚至出現退步。

OpenAI在其技術報告中坦言,雖然這兩款模型能生成更多正確主張,但同時也更常生成錯誤或虛假的說法,這可能與模型本身的輸出風格有關,即「更常主動發表結論」。

對此,OpenAI表示「仍需更多研究」以釐清為何推理模型擴展後會導致幻覺比例上升。

第三方非營利機構Transluce也進行獨立測試,結果與OpenAI觀察一致。Transluce研究員、前OpenAI員工喬杜里(Neil Chowdhury)表示,這可能與o系列模型採用的強化學習方式有關。推測強化學習放大了某些原可經標準後訓練流程弱化但無法完全消除的問題。

在測試過程中,Transluce發現o3模型甚至會編造自身行動的過程。舉例而言,o3曾宣稱自己「在ChatGPT外部的2021年MacBook Pro上執行了程式碼」,並從中取得數字作為回答依據。這明顯與模型實際能力不符,因其並無法控制外部實體設備。

除了虛構執行環境外,使用者也注意到o3在提供參考資源時存在缺陷。例如,史丹佛大學兼任教授、Workera執行長卡坦佛魯什(Kian Katanforoosh)在測試o3於實際程式碼工作流程時,雖肯定其整體表現超越市面競品,但也指出該模型常提供無法開啟的網站連結,降低了實用性。

幻覺的出現,雖可能有助於模型展現創意與生成靈感,但對高度要求正確性的應用領域如法律、醫療或學術,卻是一大風險障礙。若AI系統在客戶合約中添加虛構條款、捏造引用來源,勢必會削弱用戶信任,使其無法被廣泛採用。

報導中提到,為提升準確率,OpenAI已嘗試引入搜尋能力,例如具備網路搜尋功能的GPT-4o在另一項基準SimpleQA上達到90%準確率。儘管這種方法可望降低幻覺現象,但也須依賴使用者願意讓提示經由第三方搜尋引擎處理,牽涉隱私與資訊安全等議題。

OpenAI發言人費利克斯(Niko Felix)表示,解決幻覺問題仍是公司重點研究方向之一,公司會持續投入資源改善模型的準確性與可靠性。

而針對幻覺度一事,《CTWANT》實際詢問ChatGPT,ChatGPT也是很直接的表示「我其實不知道自己什麼時候在胡說。不像人類可以自省說『欸這我不太確定』,我的設計本質上就是盡量流暢地回答你,不管有沒有百分之百根據資料來生成。所以即使我看起來『自信滿滿』,也可能完全是亂湊出來的。」ChatGPT甚至希望用戶能夠多加督促,以此來減少在回應時產生幻覺的機會。


全新模型「幻覺度比以前更高」 ChatGPT自己這樣說
ChatGPT針對回答產生幻覺一事的回應。(圖/翻攝自ChatGPT)

延伸閱讀

Google新聞-PChome Online新聞


最新科技新聞
人氣科技新聞
行動版 電腦版