巨量資料在臺灣



近一年來,巨量資料的潮流,從國外延伸到臺灣,包括高科技製造等各產業龍頭都在積極評估,試圖透過概念驗證(POC),領先掌握巨量資料最新技術

指標企業5大巨量資料應用
根據市場調查機構Gartner的分析,目前全球資料量正以每年59%的速度成長,平均每兩年就成長1倍;資料型態也從傳統的結構性資料轉變為非結構資料為主,其中70%~80%都是網頁日誌檔案、圖片、影像、感應設備等所產生的非結構資料。面對如此巨大且快速成長的資料,傳統的資料處理技術顯得不足,Google等網路服務業者不得不尋求其他方法解決,巨量資料(Big Data)風潮因此而生。

近一年來,這股巨量資料潮流,從國外延伸到臺灣,高科技製造等各產業龍頭身先士卒,積極進行概念驗證(POC),領先掌握巨量資料最新技術,目前包括台積電、聯電、中華電信、遠傳電信、元大銀行、新光銀行等都在縝密評估,並且重新檢視既有資料處理平臺的適切性。

相較於美國,臺灣企業對巨量資料的關注,其實還在摸索階段。從目前正在評估巨量資料解決方案的企業來看,可以發現這些領航者的移動方向,大概可以分為兩大類型。其中台積電、聯電、中華電信對新的資料處理平臺Hadoop較為關注,為了驗證分散運算技術的巨量資料處理能力,台積電、聯電、中華電信甚至部署Hadoop架構來實際操作。元大銀行、新光銀行則著重可平行擴充的MPP架構彈性,來評估新一代巨量資料處理平臺。

由於各個企業的核心業務不同,所看重的資料價值與應用特性也不同,當然,因應巨量資料的階段性策略與資料處理方法亦大相逕庭。

臺灣大多數企業的資料量,目前並沒有達到PB級,然而,資料快速成長所帶來的系統效能問題,卻比比皆是,企業渴望的是可擴充的系統架構以及最佳的成本組合,因此,伴隨巨量資料而來的新技術,能否帶來這些效益備受關注。除此之外,由各種網路應用衍生出來的半結構資料以及非結構資料處理需求與日俱增,過去這類型的資料處理,不僅曠日廢時,而且還要耗費鉅資,在成本效益的考量下,企業根本不可能全面處理。

「巨量資料之所以引人注目,是因為新的資料處理技術,讓企業可以更低的成本、更快的速度完成。」中華電信資料處第四科科長楊秀一表示,在巨量資料的領域,絕對不可能是單一產品或單一平臺就能解決所有需求,企業必須從資料生命週期的角度來評估。相較於資料倉儲(Data Warehouse),巨量資料強調的是多種資料格式處理(Variety)、PB級的資料量處理(Volume)、即時資料處理(Velocity)。

目前臺灣的企業雖然還在摸索,並且試圖找出巨量資料的價值,然而經由概念驗證(POC)的方向,已經可以看到巨量資料的應用焦點,例如:高科技製造業著重的是製程量率分析、電信業則著墨於用戶行為分析以及決策建議模擬等。除此之外,值得一題的是,目前臺灣的巨量資料應用,只有極少數已經決定往新的技術架構Hadoop發展,其他大多採取漸進策略,也就是先把系統架構轉換成可橫向擴充的架構,待巨量資料應用有確切方向後再決定如何因應。

市場調查機構IDC企業應用分析師高振偉指出,臺灣的巨量資料市場,至今仍舊缺乏具有代表性的實際案例,未來1年能否藉由先期導入者,帶動大規模導入效應,將是巨量資料解決方案在臺灣市場能否起飛的關鍵。

●應用方向1 台積電、聯電:剖析上億筆機臺記錄,尋找新世代製程優化關鍵
對於高科技製造業來說,任何一廠都是數百億元的投資,一個一個機臺就要10億元以上,為了創造最大利益,各廠無不竭盡心力提高產能與良率。因此,各種先進製程控制(Advance Process Control;APC)的資料分析至為關鍵,一旦製程良率出現問題,如何在最短的時間內找出所有相關因素,甚至事先就能預知並且杜絕問題發生,一直是高科技製造業生產過程中最大的挑戰。

為了提高產能、改善良率,半導體廠商幾乎管控了製程中每個參數,並期望藉此縮小生產製程中的變數,其中的資料收集,大致上就分為3大類,包括每一批晶圓(Lot/Wafer)的生管資料、機臺製程的物理量數值以及製程完成後的量測資料。

以12吋晶圓廠為例,每一片晶圓通常需要經過300~400道製程,每一或數道製程結束之後,會有量測資料數據,作為製程品質指標。最後才會有晶片量率(CP Yield)等更完整的製程資料。事實上,晶圓製造其實就像是製作披薩(Pizza)一樣,每一道製程工序都會有一組特定配方在一個機臺設備中執行,過程中,會有許多不可控制的因子出現,這些因子的變數與特性,就是晶圓製程良率的關鍵。而提高良率的方法,就是縮小產出晶圓的變數,以及管控製程中每個參數變化。

早期的生產資訊分析,是以lot(批)為單位,隨著製程不斷演進,生產資訊也慢慢推進到晶圓,爾後,分析單位又從晶圓縮小到die,也就是IC晶粒。其中,一個lot等於25片晶圓,一片晶圓內含100個IC晶粒,以此類推,生產資訊的資料分析單位,要從lot演進到IC晶粒等級,資料量就已經增長了2,500倍。

晶圓IC製程從10年前的90奈米、65奈米、40奈米,一路演進至今已經要邁入28奈米,甚至是20奈米,伴隨製程演進而來的是,更多生產製程機臺的資料蒐集、資料分析。為了改善製程良率,晶圓廠商各顯神通,無不想盡辦法找出能夠因應下一世代製程的良率資料處理平臺。因此,台積電與聯電這一兩年來相繼評估Hadoop運算平臺,計畫透過分散運算來提升資料處理速度。

聯華電子指出,以目前的資料量來看,其實還可以現有技術來做分析,但是1年後,隨著製程演進而倍增的資料量,以及與各種生產相關的資料交叉後,所構成的資料複雜度,已經遠遠超出現有的資料處理技術以及分析能力,因此必須找尋新的方法,而平行運算的架構,應該會是一個可行的方向。

聯電為了進一步了解最新的資料處理技術Hadoop,半年前開始部署Hadoop環境,以過去的生產資料,整合數學模型、統計模型來做分析。以聯電的經驗來看,部署Hadoop環境並不難,開發MapReduce這種分散式運算程式的Java語言也不會是問題。難的地方在於,根本不知道資料應該怎麼存才是對的?存進去的資料又要如何找出關連性?後續可以如何運用這些資料?

即便聯電在Hadoop概念驗證過程中,發現了許多問題,然而在製程分析採用「平行分散運算的方向,絕對無庸置疑,但聯電不一定會用Hadoop,一切都還在評估當中。」聯電內部人員表示,在Hadoop概念驗證的過程中,聯電擷取了其中一個機臺的資料量,以1年內產出的9億個檔案、4TB來模擬,來進一步了解未來可能的巨量資料處理模式,以及找出後續發展巨量資料應該關注的問題層面。

未來,聯電也不排除尋求外部資訊廠商合作,依據聯電的資料特性與分析需求來客製。

●應用方向2 中華電信:了解千萬用戶消費行為,聚焦高價值顧客區隔服務
智慧型手機逐漸普及,帶動了行動上網的風潮,中華電信估計2013年非語音業務的營收比重,將會超過語音業務。這種轉變已經是一個全球的趨勢,而非只是中華電信所面臨的特殊情況。為了掌握用戶的使用經驗與應用趨勢,電信業者依據客戶特性分群,分析用戶的網路使用行為,了解客戶的經驗感受,主要就是希望藉此作為優化網路服務品質的依據,並且提升客戶忠誠度以及營收貢獻度。

中華電信資料處第四科科長楊秀一表示,以往電信業的投資,著重於語音業務及其相關設備,然而,智慧型手機與社群網路應用普及,卻導致電信業的用戶使用行為轉向,為了預防客戶流失,各個電信業者都在做各種層面的調整。

1年多前,中華電信開始投入Hadoop的研究,開發了一個專門用來分析非結構化資料的巨量資料運算平臺,嘗試在資料進到資料倉儲系統前,先做初步的資料分析與處理,進而減少資料倉儲的資料量。經過一段時間摸索後,中華電信認為Hadoop分散運算的特性,確實有助縮短巨量資料的運算時間,不過,中華電信還在評估是否需要部署Hadoop。

楊秀一強調,Hadoop平臺絕對不可能替代既有的資料倉儲,因為Hadoop與資料倉儲的應用特性並不同,所擅長處理的資料類型也不同。因此,中華電信必須先釐清所要分析的資料以及資料應用方向,才能進一步評估是否需要調整既有資料分析平臺。

過去,中華電信的巨量資料處理,主要是依賴資料倉儲來做營運面的分析,例如:消費記錄。但現在所談的巨量資料,會更著重在服務面與預測性,例如:客戶價值區隔的分析結果,可以讓網路頻段規畫與設備投資,聚焦於營收貢獻度高的族群等。

除此之外,電信業者也非常關注Social Network的巨量資料分析,因為目前智慧型手機的使用者,每天利用手機上網的時間是25分鐘,在社群媒體停留的時間為17.5分鐘,是名列前茅的熱門應用。電信業希望藉由巨量資料分析,找出既有用戶、潛在用戶與社群影響力的關連性。

楊秀一認為,巨量資料雖然帶來了新的想像空間,但是,能否產生新的價值構面,不僅是中華電信目前所要突破的關卡,同時也是巨量資料應用的挑戰,否則只是又買了一些新的設備,然後儲存了一些沒有分析價值的資料。

尤其各種應用發達的情況下,資料量的成長實在太快,一般人的電子郵件都可以產生5~6GB的資料,是否所有資料都有需要分析的價值,必須先了解這些資料對營運會造成的影響,再來決定是不是要儲存或是分析。

●應用方向3 元大銀行:解決資料倉儲效能瓶頸,一次滿足未來擴充需求
巨量資料處理的需求,往往因為企業的核心業務不同就有所差異。在金融業,元大銀行的出發點就是為了縮短資料處理時間。目前正在使用的資料倉儲系統,在3年前上線之後,由於資料量快速成長,使得硬體效能出現瓶頸,元大銀行為了一次解決後續擴充問題,決定轉移到可橫向擴充的MPP架構平臺。

對於元大銀行來說,「首要之務,就是先提升硬體效能,把既有資料倉儲的應用,完全無痛轉移到新平臺之後,下一步才會與業務端結合,一起往巨量資料的應用延伸」。元大銀行副總經理陳秀美指出,原本的資料倉儲是SMP架構,預計概念驗證完成後,將會轉移到MPP架構。

在MPP的架構下,除了可以提升資料倉儲的硬體效能之外,後續也可以隨著資料成長速度以及非結構資料的分析需求,在既有基礎上平行擴充,持續發展元大銀行的巨量資料處理平臺。然而,要從SMP轉換到MPP架構,原本所開發的應用程式要如何無痛轉移,將是元大銀行現階段評估新一代巨量資料平臺的關鍵。

陳秀美指出,以往礙於成本考量,在建置資料倉儲時,往往必須與業務單位詳細訪談、有所取捨,彙整各單位需求後,才建立模型與分析維度,整個過程,雖然是去蕪存菁,但是,有些資料的分析價值就因此被排除在外,例如:影像資料的應用等,類似這樣的情況,現在因為資訊硬體成本逐漸下滑,資料壓縮技術持續演進的情況下,元大銀行將會重新思考資料的價值,資料分析可以在成本不變的情況下,納入更多的資料源來分析。

因應巨量資料處理需求,元大銀行著重的是快速回應使用者需求,因此概念驗證階段,就以實際的帳務資料以及交易資料,模擬出數10億筆資料,再從客戶屬性與商品行銷通路等不同分析維度去查詢,進而驗證各資訊廠商的I/O以及資料處理速度等。針對資料處理速度方面,確實可以看到同樣的資料處理,在新系統的資料處理效能提升了數10倍。

除此之外,對於元大銀行來說,資料處理的評估關鍵,還涉及多個資料排程的處理能力,例如:計算某位客戶對元大銀行的營收貢獻度,就必須彙整多個不同應用系統的資料源,包括財富管理系統、存款系統、放款系統、保險業務系統等等,所有相關應用系統的資料匯集之後才能進行加總,否則只要缺少一個系統的一個明細,都會影響到這筆資訊處理的運算作業。

3種Big Data部署方式
從臺灣的角度來看,雲端服務模式與軟體導向解決方案,都不是企業最偏愛的選擇,相較之下,以硬體形式推出的一體機(Appliance)是最受青睞的一種
●類型1套裝軟體搭配自組硬體
●類型2軟硬體整合的一體機
●類型3採用雲端巨量分析服務

企業對新技術Hadoop認知兩極
企業對於Hadoop的認知,至今仍舊處在天秤的兩端,只有極少數企業深入了解Hadoop,而真正決定把Hadoop叢集架構視為巨量資料處理發展主軸者,更是少之又少

資料科學家是點燃資料價值的關鍵
資料科學家有分析Big Data需要的3種能力,包括深入了解企業內的業務與組織、具備資料探勘等統計應用知識、熟悉資料分析工具操作。在臺灣,巨量資料的應用雖然才剛萌芽,但已面臨到幾項重大挑戰
●挑戰1資料分析人才不足
●挑戰2在地顧問服務不足
●挑戰3 企業對資料價值敏感度不足

《詳細內文請見iThome電腦報574期(www.ithome.com.tw),天瓏、誠品、何嘉仁、搜主義、敦煌、法雅客、Page one書店均有銷售》

574期其他精采內容:
.新聞:微軟認證大改制,MCSA和MCSE名稱回來了
.新聞:微軟公布新版Office售價
.新聞:Visual Studio 2012正式上市
.新聞:資策會推出個資法教戰手冊
.IT經理人開講:玉晶光電CIO向上溝通的關鍵 拉攏使用者主動為IT背書
.IT人甘苦談:勇往直前,享受IT的快意人生
.產品測試:磁碟陣列:NEC iStorage M100