趨勢科技用Spark打造大資料分析架構,克服單日GB級APT資料分析挑戰

趨勢科技用Spark打造大資料分析架構,克服單日GB級APT資料分析挑戰

趨勢科技透過Spark平臺建立雙資料流的大資料分析架構,不只不需要儲存每天暴增的Log資料,還能將同一支程式運用在即時處理和批次處理兩種不同的資料處理模式上

趨勢科技是臺灣最早擁抱Hadoop大資料分析平臺的企業,早在2008年就利用Hadoop來快速檢查全球數十億個網站,從中來找出可疑的惡意網站。近幾年甚至更進一步地,發展出了自己的Hadoop大資料版本,稱為Trend Micro Hadoop(TMH),並以此為核心,來建構出趨勢自己的大資料堆疊架構(Big Data Stack)。

在去年底Big Data Conference 2015上,趨勢首度對外發表了這套大資料架構,不只像國外企業常見以Hadoop Ecosystem產品為主的大資料架構,趨勢大資料架構還進一步整合了當紅的Docker容器技術,透過Docker來部署Hadoop的執行環境。不過,即使趨勢在Hadoop實戰經驗上已是臺灣數一數二強,甚至都不輸國際大型網路業者,但在2015年初,他們卻遇到了一個新挑戰,是原有慣用的Hadoop大資料平臺不容易完成的挑戰。

這個新挑戰也就近年來在資安領域日益猖獗的進階持續性滲透攻擊(APT),由於APT沒有一定手法或特徵,只能從大量網路行為Log或帳號行為中,找出可能遭駭客利用的問題帳號。

不過,光是在臺灣地區,趨勢要監控的網路行為Log資料,每天暴增數十GB,若以原有Hadoop平臺來處理,光是儲存分析過程的中間資料量,就得耗費數倍容量,為了提高分析速度所投入的硬體投資也相對很高。

因此,趨勢從2015年初開始,採用了國外超夯的新一代大資料分析Spark來打造專用的特殊任務大資料平臺,稱為SDACK架構。

這個平臺主要採取串流分析的策略來處理APT的大量Log資料。趨勢先利用少量Log資料或其他APT攻擊特徵,找出判斷可疑行為的演算法或判斷規則,再利用Spark來處理每天數十GB的Log,找出可疑的帳號或行為,並將分析結果寫入SQL資料庫中,建立一個視覺化網站來呈現出可疑的APT攻擊行為。

趨勢科技用Spark打造大資料分析架構,克服單日GB級APT資料分析挑戰
趨勢大資料分析平臺最大特色:趨勢科技以新世代大資料分析技術Spark為核心,打造了一個不同於Hadoop為核心的專用大資料分析平臺,還使用了Akka、Cassandra、Kafka這幾個熱門的大資料套件,並使用Docker做資源管理,趨勢命名為SDACK架構。


串流架構的策略是消化資料不是儲存資料