【微服務架構如何通吃1億筆異質行為資料】國泰金控資料分析關鍵框架HIPPO大公開

國泰金控首次公開了自家資料分析的關鍵框架HIPPO,揭露了這套分析基礎架構的樣貌(攝影/洪政偉)。
如何更了解顧客(KYC)是金融業一直想要從龐大資料中回答的關鍵挑戰,隨大數據技術和資料科學的崛起,臺灣金融圈近兩年也積極成立資料科學團隊,招募資料科學人才,但如何更快更有品質地從龐大資料中找出有價值的情報,卻是各家金控和銀行業者秘而不宣的關鍵。直到最近,國泰金控首次公開了自家資料分析的關鍵框架HIPPO,揭露了這套分析基礎架構的樣貌。
在國泰金控數位暨數據發展中心資料科學研發科中擔任資料科學家的陳榮錡指出,資料分析的挑戰是,除了要統整來自十多種資料源的異質資料,還要面對不同高度客製化的分析需求,過去國泰的分析人員、資料科學家多半只能採取偵探式的資料探索方式,按每次分析需求逐一解決。
但是,這種偵探式分析方法終究不是長遠之道,因此,國泰想要打造出一套系統化的資料分析框架,來通吃多樣性資料源,又滿足不同客製特色的分析需求。最後,才發展出這套國泰稱為採用「資料微服務架構」設計的HIPPO架構。
早在2016年中,國泰集團就在金控下成立了數位暨數據發展中心,來統整旗下金控、銀行、人壽、產險、證券各子公司的金融科技發展。而陳榮錡所在的資料科學研發科,更被視為是國泰資料科學實驗室,目前約有11名成員,從去年就開始打造這套新一代的HIPPO資料基礎架構,也從2016年10月開始建立客戶歷程資料,目前已累積數十種交易資料,以及上億筆來自銀行、人壽和證券的消費者行為資料。
拋棄偵探式作業方法,靠系統式作法才更有效率
來自銀行、人壽、證券這三個子公司匯集的資料相當豐富,也分別代表了不同領域的金融情報。
例如,銀行資料主要包含用戶的投資、理財、存款資訊;人壽業務儲存了保險、保單資料;證券則是股票買賣等資料。因應業務不同,衍生出不同的資料,因此資料儲存格式、維度都完全不一樣,但是,國泰資料科學家團隊的任務是,「從單一公司格局,轉而綜合剖析各產業資料,得到最大綜效。」也因此,無論如何,國泰資料科學團隊的挑戰就是,得想辦法彙整來自三家子公司的龐大資料。
再加上,國泰金控旗下各子公司因業務特性不同,資料處理流程也有不小的差異。陳榮錡舉例,銀行每天三點半閉門進行結算,但證券資料則是受限於股票交易時間,「起始時間都不一樣,資料非常難整合,」他表示,由於子公司各有獨特作業程序,也不可能要求全面統一作業流程,資料源頭的控制很難。