讓電腦像小孩一樣閱讀《哈利波特》:Maluuba

機器能不能像小孩一樣閱讀《哈利波特》?人工智慧已經厲害到可以幫我們開車,但在理解人類的語言本身或背後意涵還很弱。然而,加拿大公司Maluuba推出的機器閱讀系統EpiReade,在文章閱讀上已有不錯的表現。

Maluuba由加拿大滑鐵盧大學(University of Waterloo)學生舒里曼(Kaheer Suleman)和蘇帕拉克(Sam Pasupalak)在2011年所創辦,專精於機器閱讀系統的研發。2016年Maluuba發表論文〈A Parallel-Hierarchical Model for Machine Comprehension on Sparse Data〉聞名全球。在論文中,Maluuba訓練機器在閱讀文章後完成克漏字測驗,結果顯示,針對CNN新聞與Facebook所蒐集的童書兩大數據集的閱讀測試,分別得到74%與67.4%的準確率,這個數字在當時超過Google與微軟等科技巨頭。

Maluuba以白雪公主文章為例,用刪除「小矮人」這個詞彙作測試,機器透過兩大閱讀步驟找到正確答案。第一個步驟是在故事中挑選出可能是正確答案的詞彙,如挑出白雪公主、小矮人、他們、繼母與她等單詞,接著形成一些「假設」,第二步驟將每個假設與故事中的每個句子加以比較,最後找出最有可能是答案的詞彙。

「和圖像辨識比較起來,機器閱讀是更複雜的認知型任務,它需要大局觀,查看它所讀取文字的語境,甚至需要加入自身已具備的相關背景知識。」微軟亞洲研究院副院長周明曾撰文指出。一般來說,人們在讀完一篇文章後,就會在腦海裡形成一定印象。這種對人類輕而易舉的能力,對電腦來說卻非如此。長期以來,自然語言處理的研究都是基於句子級別的閱讀理解。「例如給電腦一句話,理解句子中的主謂賓、定狀補,誰做了何事等。但長文本的理解問題一直是研究上的難點,因為這涉及句子之間的連貫,上下文和推理等更高維的研究內容。」

Maluuba在今年被微軟併購後,專注於訓練機器「問問題」,團隊認為機器問問題的能力增加後,其回答問題的能力也會進步,此外,微軟也努力把該技術整合到Office產品中。

*更多精彩內容請見《數位時代》278期
https://www.bnext.com.tw/magazines
*尊重智慧財產權,如需轉載請註明資料來源:《數位時代》第278期
http://www.bnext.com.tw/