趨勢大資料平臺架構大公開

趨勢大資料平臺架構大公開

趨勢科技資深軟體工程師葉祐欣分享趨勢大資料平臺架構(Big Data Stack)與建置經驗,並揭露趨勢為了自行建置Hadoop平臺所用的自動化更新和部署工具Bigtop

不少新興大資料技術接連竄起,3、5年前被視為企業頭號救星的Hadoop,也已經形成更完整的生態系,不再是當年只能做批次資料分析的技術而已,趨勢科技是國內最早採用Hadoop技術的企業之一,其資深軟體工程師葉祐欣在Big Data Conference 2015大會上,分享了趨勢大資料平臺架構(Big Data Stack)與建置經驗,並揭露趨勢為了自行建置Hadoop平臺所用的自動化更新和部署工具Bigtop。

葉祐欣是Apache Bigtop專案的貢獻者與專案管理者(PMC),有Hadoop、HBase、Spark、Kafka、Pig、Spark、Fluentd、Akka及Docker等相關技術與系統的建置經驗。他在趨勢負責建立整個基於Hadoop生態系統的大資料服務產品組合,打造內部的Hadoop版本,並開發一套可部署並管理跨數百臺伺服器的Hadoop叢集系統。

他也曾開發基於Apache HBase的搜尋系統,能在數秒內搜尋數十億的網路流量的紀錄,協助公司資安團隊快速追蹤資安事件。他進一步揭露整個趨勢大資料Stack架構。

趨勢大資料架構大公開

趨勢的自建Hadoop版本稱為Trend Micro Hadoop(TMH),目前這整個大資料堆疊架構(Big Data Stack),由下而上分為部署層、資源管理層、儲存層、運算處理引擎、API介面層,以及最上層由內部開發的應用系統(In-house Apps)。

葉祐欣表示,部署層有兩套自行開發的系統,分別為開發用的Hadoocker和上線用的Hadooppet,並使用YARN做資源管理,儲存與運算處理引擎仍使用Hadoop HDFS及MapReduce,葉祐欣表示,這是因為趨勢的大資料平臺很早期就開始建置,因此還有很多程式碼要支援。

趨勢在API介面層採用Pig套件,並在Pig系統上,自行開發一個能讓應用程式更容易與Pig平臺串接的查詢機制(Ad-hoc Query)和UDF,葉祐欣說,趨勢有自己的檔案格式,因此要讓使用者可以輕易的存取檔案。

另一方面,趨勢採用Oozie做工作管理,並開發Wuji讓使用者更方便使用。並以HBase做即時資料處理,此外,也有些API用Solr Cloud來搜尋,Solr叢集可監控每個系統產生的Log資料,來監看各個Stack上的系統運作紀錄。葉祐欣也強調,他們一直採用Kerberos來強化資安。