巨量資料量測當下



英文的forecast可拆解成兩個字根,fore是「事前」跟「提早」之意,cast是「計算」,合起來是事前計算,也就是預測或預報。混沌理論告訴我們:世界是一個複雜的非線性系統,某處的蝴蝶一振翅,可能會導致未來遠方某地發生颶風。可見預測未來之困難,必須考慮許多細微且互相影響的因素。

既然預測未來非常困難,我們是否能夠退一步、觀測分析「當下」發生了什麼事?於是,經濟學者提出了「當下量測」(nowcasting)這個新詞,nowcasting從字面上來看,是從forecasting衍生而來,目的是在量測「當下」,而非預測未來。

經濟學上有很多指標,常常需藉由普查(如問卷調查)才能獲得,例如失業率、經濟成長率、金融商品的銷售量等。但是進行這些調查的時間與金錢成本所費不貲,調查結束後還需要分析,往往導致得出結果時與原先欲預測之「當下」已經有時間上的差距。歐元區的生產毛額即為一例,歐元區生產毛額一季調查一次,光是調查過程就約六週,造成經濟學家或金融學家無法正確對市場即時決斷。

有鑑於上述困境,資訊學家開始思考能否利用資訊技術,既快又準確地從事「當下量測」。近年來,因巨量資料興起,結合大量資料與快速運算的機器學習模型,使得當下量測可能實現。歐洲中央銀行2010年發表的一篇論文,詳述他們如何利用較頻繁調查的指標(如歐洲工業生產量)來估算一些較不頻繁調查的指標(如歐元區生產毛額),有很不錯的成果。

網路界巨擘Google的首席經濟學家韋瑞安(Hal Varian)亦為當下量測的高手,他提出可利用Google搜尋趨勢(Google Trend)的結果來進行當下量測。Google搜尋趨勢是一個公開服務,使用者鍵入某個關鍵字就可得到2004年至今這些關鍵字每天、每週、每月、每年被搜尋的次數。韋瑞安團隊發現,這些搜尋行為的統計值跟某些對應的經濟指標很相關。例如,特定時間內"car"及"car purchase"這類關鍵字的搜尋,與當時汽車銷售量高度相關;"job search"、"job hunting"等關鍵字可用來估計當下的失業率。針對每個相關的經濟指標,Google列出數十甚至數百個相關關鍵字,蒐集它們在Google搜尋趨勢的查詢頻率,再利用多種機器學習及統計方法從事當下量測,達到很高的精確值。Google甚至可記錄資料的IP位址,得知該搜尋源自哪個地區,進而從事小範圍的預測。比如利用"gun store"關鍵字在各地的搜尋頻率,來比較美國各州槍枝泛濫的情形。

【全文未完,完整內容請見《科學人》第141期(2013年11月號);版權所有,轉載請註明出處。】

本期其他文章
前期其他文章