OpenAI進階語音模式重磅來襲:GPT-4o革新語音交互體驗

火報記者 陳銳/報導



今年5月,OpenAI原本計劃為其新一代語言模型GPT-4o引入一個嶄新的語音互動功能。然而,由於考慮到潛在的安全風險,以及著名影星Scarlett Johansson的投訴,這一功能的發布不得不暫時擱置。隨著技術進一步完善,OpenAI最近宣布,已經開始向部分ChatGPT Plus用戶逐步開放這一進階語音模式,讓這些用戶能夠搶先體驗與GPT-4o進行語音對話的全新方式。



目前,這一進階語音模式仍處於alpha測試階段,並且不包括影片和螢幕共享的功能。參與測試的用戶將會收到來自OpenAI的通知郵件,並在ChatGPT應用程式中獲得詳細的使用說明。與現有的ChatGPT語音功能相比,這一進階模式在許多方面都進行了顯著的改進和強化。



OpenAI進階語音模式重磅來襲:GPT-4o革新語音交互體驗
OpenAI提供的進階語音模式處於alpha測試階段,尚未包括影片與螢幕共享功能。圖片來源:擷取自YT/OpenAI


首先,這一模式能夠精確感知語音中的情緒語調,帶來更加真實的交互體驗。其次,進階語音模式的對話流暢度得到了顯著提高,使用戶可以享受更加自然且即時的語音交流。此外,這一模式還能在不依賴其他輔助模型的情況下,獨立完成語音任務,極大地降低了對話的延遲問題。



在過去的一段時間裡,OpenAI與來自全球的100多名外部測試者合作,對GPT-4o的語音能力進行了嚴格測試,涵蓋了多達45種語言。然而,在5月的展示中,一款名為「Sky」的語音模型,由於其聲音與Scarlett Johansson在Marvel電影中飾演的黑寡婦角色極為相似,遭到了這位演員的指控,認為其聲音被未經授權使用。這一爭議最終導致「Sky」語音模型在本次進階語音模式的推出中被排除。



為了滿足用戶多樣化的需求,ChatGPT進階語音模式還提供了四種預設聲音,分別為Juniper、Breeze、Cove和Ember。這些聲音的設計均經過精心調試,以確保其能夠提供高度自然的對話體驗。



OpenAI的進階語音模式標誌著語音交互技術的重大進步。隨著這一功能的逐步推廣,未來或將改變用戶與AI互動的方式,為數字助理技術帶來新的可能性。





這篇文章 OpenAI進階語音模式重磅來襲:GPT-4o革新語音交互體驗 最早出現於 火報

Google新聞-PChome Online新聞


最新社會新聞
人氣社會新聞
行動版 電腦版