提升業界AI圖像編輯能力 蘋果Apple Intelligence發布大型訓練資料集

儘管外界持續揣測蘋果(Apple)在AI領域的發展相對落後,但該公司持續發表全面的研究論文。蘋果Apple Intelligence的研究人員近日發表了一份新的研究報告,認為當前的AI圖像編輯器訓練所使用的圖像集不足,因此釋出了一個經過改進的訓練資料集,目的在提升整個行業的AI圖像編輯品質。
儘管外界持續揣測蘋果(Apple)在AI領域的發展相對落後,但該公司持續發表全面的研究論文。蘋果Apple Intelligence的研究人員近日發表了一份新的研究報告,認為當前的AI圖像編輯器訓練所使用的圖像集不足,因此釋出了一個經過改進的訓練資料集,目的在提升整個行業的AI圖像編輯品質。

痛點:現有AI編輯訓練資料庫品質不足
這份名為《Pico-Banana-400K:一個用於文本引導圖像編輯的大型資料集》的研究論文,明確關注如何更好地訓練AI系統,使其能根據文字提示(Text Prompts)來編輯圖像。
儘管蘋果的研究人員認為目前的系統如GPT-4o和Nano-Banana在「文本引導圖像編輯」方面表現出色,但論文指出這些系統存在一個關鍵限制,那就是「研究界的進展仍然受限於缺乏從真實圖像構建的大規模、高品質且可公開存取的資料集。」
蘋果發布40萬張圖像資料集 供非商業使用
為了解決這個問題,蘋果研究人員發布了「Pico-Banana-400K」,這是一個包含約40萬張圖像的綜合性資料集,專門用於「基於指令的圖像編輯」。除了規模龐大之外,其獨特之處在於「對品質和多樣性採取了系統化的方法」。
該資料集的所有圖像都已免費提供給非商業用途使用。這些圖像根據「35種編輯分類法」(例如移動圖像中的物件、添加藝術效果或縮放)進行組織。
研究人員將資料集中的每張圖像上傳至Nano-Banana,並輸入了相關的文字提示。隨後,他們利用Gemini-2.5-Pro對生成的圖像進行分析,並決定接受或拒絕。
最終的Pico-Banana-400K資料集不僅包括透過「單輪編輯」(單一提示)和「多輪編輯序列」(多次迭代提示)生成的圖像,還包括成功結果和失敗結果的偏好對(preference pairs),這樣模型也能學習到「不理想的結果是什麼樣子」。
蘋果研究人員表示,發布這個大型圖像資料集,為訓練AI圖像編輯器「建立了一個穩固的基礎」,有助於業界共同發展。
蘋果最近一次在今年6月改進了其內建的Image Playground功能,當時增加了更多由ChatGPT驅動的圖像風格。
資料來源:Apple Insider
這篇文章 提升業界AI圖像編輯能力 蘋果Apple Intelligence發布大型訓練資料集 最早出現於 科技島-掌握科技新聞、科技職場最新資訊。
- 記者:彭夢竺
- 更多科技新聞 »
