Big Data 熱潮,科學還是迷信?

首先,甚麼是Big Data?甚麼不是Big Data?這個問題沒有標準答案,各家有各家的說法,但大同小異。

麻省理工學院教授席多哥(Cesar A. Hidalgo)在《科學美國人》(Scientific American)的論壇上發表了一篇文章,認為Big Data的內容主要是指有關人類活動所留下的各種數據軌跡,例如:行動電話記錄、信用卡消費記錄、社群網站活動等。這些資料,全部的資料,經過數據視覺化(data visualization)和機器學習(machine learning)等技術,找出一些形態或相關性,可供管理決策參考運用或是預測未來行為。

基本上這套技術和傳統的統計抽樣、問卷調查、訪談等完全不同。傳統的統計總是來自抽樣,所以不是「大資料」。

先玩玩Google Trends

你也許會認為Big Data莫測高深,離自己很遠,其實不然,任何人都可以立即體驗一下。請進入Google Trends網站(www.google.com.tw/trends/),在網頁最上端「Search Google Trends」的那一欄裡打入任何你想知道(有多少人在搜尋)的字詞,例如「股市行情」,這時Google Trends就會把歷年來搜尋「股市行情」的人數消長圖顯示出來。不過這資料包括大陸和香港,如果我們只想知道台灣的部分,可以在網頁上面藍色那行,把「全球」改成「台灣」。於是我們可以看到台灣關心股市的程度,從我目前的資料看起來,是呈現「暴增」的趨勢。

這就是最容易上手的Big Data了,除了有趣之外,潛力更是無可限量。你要查甚麼字詞,找出甚麼現象,幾乎沒有限制。Google工程師還弄了一個Google Flu Trends系統(http://www.google.org/flutrends/),用流感症狀的相關詞彙搜尋狀況來研判疫情,發現他們的指標只比實際疫情落後一天,遠優於疾病管理局(CDC)落後一週的通報資料。他們把這個成果發表於《自然》雜誌,引起廣大迴響,並帶動Big Data的風潮。雖然Google Flu Trends事後被發現有些瑕疵,但其歷史意義則不容否認。

不花大錢也可以試玩Big Data

如果你的企業所有資訊,也能有一套類似Google Trends的東西,隨時提供經營上的線索給老闆和經理人參考,不是很好嗎?以往,Big Data只屬於超大型企業的東西,現在,基本上不用花大錢也能玩入門款了。

大家最擔心的系統架設問題,IBM Watson Analytics、Amazon Web Services、Google BigQuery等都有收費低廉甚至於免費試用的方案,很適合小企業使用。我們只要上去他們的網站,在系統的指引下,就可以一步一步地動手開始做。

至於人員培訓方面,實體課程有資策會或各大學推廣中心可選擇,而由全球一百多所知名大學所提供的Coursera網路課程,則是完全免費。此外,你也可以先用公領域的資料庫當作練習,Amazon Web Services上提供了從美國普查資料、聯準會經濟數據、到基因定序的各種Big Data資料庫,任何人都可以下載使用。
行動版 電腦版