羅賽塔石碑的秘密:Google翻譯
讓機器翻譯出來的語句,如同真人翻譯一般。
羅賽塔石碑(Rosetta Stone)製作於公元前196年,刻有埃及法老托勒密五世(Ptolemy V)詔書,石碑同時刻有三種不同語言版本,考古學家最後破解了這段埃及文字的意義,而羅賽塔石碑也曾是Google翻譯的內部產品代號,Google翻譯擁有龐大的使用族群,每天進行10億次以上的翻譯,大約等於100萬本書的字數,每月有超過10億的活躍使用者,也就是每三個網路使用者中,就有一個是Google翻譯常用者。
以往,Google翻譯以片語式機器翻譯(Phrase-Based Machine Translation)作為主要運算方式。Google透過蒐集搜尋索引來建構翻譯模型,並以統計方式將共同出現過的詞彙記錄下來,套用到翻譯服務中,以此方式,Google翻譯了數十億的網路文件,包含官方文件、新聞文章與書籍。而Google神經機器翻譯系統(Google Neural Machine Translation,GNMT)則是將整個輸入的句子視為一個單位進行翻譯,讓系統從數百萬的例子學習,提升翻譯品質。
2016年11月,Google藉由導入神經機器翻譯技術,讓Google翻譯僅需要一套系統就能完成多元語言翻譯,簡化了過去需要建構多個不同翻譯系統造成可觀的運算成本。Google翻譯產品經理卡蒂奧(Julie Cattiau)指出「複雜模型架構需要八個Google處理器(Google processing units)運算,因此每個模型的訓練需花費數周的時間,而每個模型需超過1億筆訓練案例,相當費時。」
面對多種語言翻譯的情境,Zero-Shot翻譯系統則讓兩種語言經過訓練後可自動學習,且不需額訓練就能自動翻譯另一種全新語言,舉例而言,Zero-Shot翻譯在進行英日、韓英翻譯訓練後,不僅可完成英日、日英、英韓、韓英的互譯,且可藉由導入Zero-Shot翻譯就能完成之前沒有經過任何訓練的第三種語言,如韓日、日韓的互譯。
「目前推出的16組語言組中,共有十組語言組已經採用Google神經機器翻譯系統。而透過強大的運算,在短短兩個月內,將原本需要十秒翻譯一句話的速度,縮短到0.2秒就能完成。」卡蒂奧強調。下一個階段,Google要解決的是提早截斷(early cutoff),也就是適時地截斷或捨棄來源句子裡的單詞、加強數字與日期翻譯、簡短、罕見字串的翻譯與名詞與品牌翻譯等,讓機器對語言理解的程度更進化,在不久的將來,Google翻譯服務,將有機會和人工翻譯一拼高下。
*更多精彩內容請見《數位時代》278期
https://www.bnext.com.tw/magazines
*尊重智慧財產權,如需轉載請註明資料來源:《數位時代》第278期
http://www.bnext.com.tw/
羅賽塔石碑(Rosetta Stone)製作於公元前196年,刻有埃及法老托勒密五世(Ptolemy V)詔書,石碑同時刻有三種不同語言版本,考古學家最後破解了這段埃及文字的意義,而羅賽塔石碑也曾是Google翻譯的內部產品代號,Google翻譯擁有龐大的使用族群,每天進行10億次以上的翻譯,大約等於100萬本書的字數,每月有超過10億的活躍使用者,也就是每三個網路使用者中,就有一個是Google翻譯常用者。
以往,Google翻譯以片語式機器翻譯(Phrase-Based Machine Translation)作為主要運算方式。Google透過蒐集搜尋索引來建構翻譯模型,並以統計方式將共同出現過的詞彙記錄下來,套用到翻譯服務中,以此方式,Google翻譯了數十億的網路文件,包含官方文件、新聞文章與書籍。而Google神經機器翻譯系統(Google Neural Machine Translation,GNMT)則是將整個輸入的句子視為一個單位進行翻譯,讓系統從數百萬的例子學習,提升翻譯品質。
2016年11月,Google藉由導入神經機器翻譯技術,讓Google翻譯僅需要一套系統就能完成多元語言翻譯,簡化了過去需要建構多個不同翻譯系統造成可觀的運算成本。Google翻譯產品經理卡蒂奧(Julie Cattiau)指出「複雜模型架構需要八個Google處理器(Google processing units)運算,因此每個模型的訓練需花費數周的時間,而每個模型需超過1億筆訓練案例,相當費時。」
面對多種語言翻譯的情境,Zero-Shot翻譯系統則讓兩種語言經過訓練後可自動學習,且不需額訓練就能自動翻譯另一種全新語言,舉例而言,Zero-Shot翻譯在進行英日、韓英翻譯訓練後,不僅可完成英日、日英、英韓、韓英的互譯,且可藉由導入Zero-Shot翻譯就能完成之前沒有經過任何訓練的第三種語言,如韓日、日韓的互譯。
「目前推出的16組語言組中,共有十組語言組已經採用Google神經機器翻譯系統。而透過強大的運算,在短短兩個月內,將原本需要十秒翻譯一句話的速度,縮短到0.2秒就能完成。」卡蒂奧強調。下一個階段,Google要解決的是提早截斷(early cutoff),也就是適時地截斷或捨棄來源句子裡的單詞、加強數字與日期翻譯、簡短、罕見字串的翻譯與名詞與品牌翻譯等,讓機器對語言理解的程度更進化,在不久的將來,Google翻譯服務,將有機會和人工翻譯一拼高下。
*更多精彩內容請見《數位時代》278期
https://www.bnext.com.tw/magazines
*尊重智慧財產權,如需轉載請註明資料來源:《數位時代》第278期
http://www.bnext.com.tw/