全臺入口網站龍頭的資料工程師們,讓Oath搶下全臺千萬網民眼球



為了抓住全臺上千萬名網友的眼球注意力,Oath集結跨國資料團隊,每天想盡辦法提高原生廣告平臺的預測力。

雅虎奇摩是臺灣最大的入口網站,超過9成臺灣網民每個月來報到,但如何每天持續抓住這1千1百萬人的眼球來關注,卻是Oath原生廣告平臺Gemini臺灣團隊日復一日的挑戰,更是這個10人團隊主管,Oath通訊/數據暨搜尋產品事業群資深技術總監許明彥,每天最煩惱的問題。

雅虎在電信巨頭Verizon併購後改名為Oath,臺灣雅虎奇摩網站儘管還在,但團隊已經成了Oath旗下的臺灣分公司。目前全球Oath旗下擁有超過50個媒體品牌,全球瀏覽人數超過10億人次,而臺灣Oath主要營收仍聚焦在電商和廣告業務。

當年的網路巨人雅虎,很早就開始經營數位廣告業務,不論是早期的橫幅式線上廣告,或是10年前開始竄起的關鍵字廣告,挾臺灣最大入口網站的流量,雅虎奇摩是臺灣網路廣告的重要業者。從2014年中開始,雅虎奇摩更進一步在臺推出原生廣告。

「原生廣告是近兩年Oath成長最快速的產品之一。」許明彥透露:「原生廣告是以關鍵字廣告為基礎,發展出的新型廣告推播方式」,但和關鍵字廣告最大的差異是,原生廣告運用程式猜測網友的興趣,再來推播廣告,不需要網友輸入關鍵字。許明彥解釋,原生廣告要讓廣告內容與跟使用情境產生關聯,藉此放大廣告推播效果。

這也正是Oath打造原生廣告平臺Gemini的用途,可以根據網友當下瀏覽的內容、過去瀏覽行為紀錄,或是該員購買商品的行為,分析網友可能有興趣的廣告內容。當網友在瀏覽新聞、社群媒體等內容時,Gemini可以同時推播合適的廣告,協助廣告主找到潛在用戶、消費者。

不過原生廣告難度在於,很難追蹤網友每一個足跡,尤其當網友並未明顯透露出其使用行為或意圖時更困難,所以在近年Oath才開始使用AI、機器學習,來加強廣告投放預測的準確度,「如何預測網友對哪些議題有興趣?」他說:「這就是我們的挑戰之一。」因為即使沒有關鍵字、搜尋紀錄或瀏覽紀錄,Oath也得找出能引起網友好奇的廣告,才能得到好的廣告宣傳效果。

許明彥認為,Oath除了有自營運數位媒體部門,也有搜尋引擎業務、電子商務,比其他業者,具有更完整的事業版圖,因此,系統判定網友的廣告喜好時,可以整合更豐富的資料維度,例如將網友在搜尋引擎、電商平臺鍵入的關鍵字來預測。另外,為了綜合評估廣告投放效率,也因此,每個頁面、連結、顯示區域都要追蹤納入分析。

Gemini現在也得分析更細緻的網友行為,像是網頁停留時間是衡量廣告成效的重要指標,如果網友直接關閉頁面,這顯示他對於這個內容完全沒有興趣,但若是一則廣告視窗彈出後,網友停留頁面時間較久,意味廣告內容與關鍵字的相關性較高。

而究竟哪一些指標,可以用於判定該廣告投放效果的優劣,許明彥表示,廣告點選率是最基本的判斷標準,不過他表示,現在Oath也會評斷廣告轉換率,或是公司業績成長好壞。比方說,團隊可以會利用兩組不同參數,實驗哪組的使用者數據更好、營收更好,之後再決定該如何調整模型。例如,某個產品安插了新聞模組,雖然點選率很高,但是同時間該頁面的廣告模組點選率便下降。或者是新功能上架後,某廣告點選率突然暴增,「導致使用者體驗下降」,為了讓使用者體驗不要受到太大的影響,團隊得要一步一步導入新功能,「而不是很突兀的推出新功能」,反而本末倒置造成營收下降。

因此,開發新廣告產品時,Oath也要評估其長期價值,能否維持一定的使用者體驗。以行動裝置為例,下拉的時間、點選時間、重新搜尋關鍵字的次數,或是閱讀下篇文章的時間區隔,「都可以作為衡量指標。」同時,系統也會評估放棄率(Abandon Rate),假若網友看到該廣告後,直接跳離該頁面,「很明顯消費者對此廣告沒有興趣」,或是網友不斷重新轉換關鍵字、來回搜尋內容,也都是使用者經驗不佳的指標。

臺灣團隊任務是延伸關鍵字指涉範圍,觸及更多潛在用戶、消費者

而在Gemini專案中,在臺灣的成員主要是資料工程團隊,負責將關鍵字所指涉的意義進行延伸(Extension),並且剖析不同關鍵字間的關聯性,藉以讓廣告對象可以接觸更多潛在的相關內容。許明彥解釋,雖然網友可能心中想著同樣的搜尋目標,「但是描述方式大不同」,例如,同樣是找尋房地產相關內容,同類型關鍵字可能就包含租屋、買屋、不動產、房子、民宿等,因此,要設法擴張單一關鍵字所指涉的搜尋內容,才能滿足更多潛在廣告主的需求。

再者資料工程團隊得要讓系統學會判定不同關鍵字間的關聯,不只像俗稱或縮寫等同義不同字的連結而已。許明彥表示,有時兩個字義上完全無關的字,但網友搜尋這兩個的字,卻點選至同一網站時,「藉此可判定這些關鍵字有所關聯。」

許明彥再舉例,像是兩個名詞在同一篇文章中同時出現的比例很高,或是在文章中,兩者在文脈內相距的行數很近時,「也可以判定這兩個名詞有關聯。」或者,許多消費性產品,該品牌粉絲也喜歡取一些不同的產品暱稱,都可視為相關的關鍵字。

不過,這類規則過於繁雜,不可能單靠人力分類,必須建立一套系統自動判斷,因此必須藉助機器學習,才可能讓應用規模擴大。許明彥補充,要讓系統學會這樣一套判定規則,一般需要分析至少過去5年的新聞、文章內容。

許明彥表示,最後,Oath還會透過上線測試,來評估關鍵字關聯判定規則的效果。像是會觀察網友的點選率、停留時間長短等數據來判斷關鍵字延伸的效果,作為修正關鍵字關聯度的參考。

而同時Oath也有準備自家內部的資料集(Library),作為機器學習的訓練素材。而許明彥表示,機器學習、大數據困難的地方在於,除了要設計好的數據收集模型,還要確保有用資訊都有妥善保存,同時,為了增加數據可讀性,還要用儀表板將相關結果視覺化。



Oath通訊/數據暨搜尋產品事業群資深技術總監許明彥認為,目前Oath在臺資料工程團隊仍是偏向傳統處理資料任務為主,「未來的目標是Create insight,要能做到預測未來結果。」(攝影/洪政偉)。

影響機器學習效果的關鍵,除了資料,還有人才

機器學習應用還有另一個實作上的挑戰,許明彥表示,儘管電腦運算能力增加,大數據平臺技術成熟,但不是將所有資料匯入平臺進行運算就能解決問題,導致資料模型過於龐大,反而得花更長才能產出分析結果。

也因此,許明彥認為,資料科學家得要試著推敲事件間的因果關係,這樣的判斷能力,就是機器學習中常見的特徵擷取,「擷取得越精準,越能判定成效。」匯入大量品質不佳的資料,對模型提升的效果反而有限。

許明彥認為,厲害的資料科學家,必須有能力擷取出最具代表性的特徵,來減少每一筆資料進行特徵擷取的時間,「否則只會變成亂槍打鳥。」優秀的資料科學人才要能找到最關鍵的特徵,藉此減低資料模型的複雜度,機器學習應用才能展現出優勢。

資料工程人才必備熱誠、韌性及創意

目前Gemini專案在臺灣的團隊主要是資料工程團隊,而以色列則是資料科學團隊,另外在資料團隊中,還設有一組具備統計專長的分析團隊,在產品上線前根據實驗結果,判定該產品好壞,其他成員再依此團隊的回饋來修正模型。

許明彥招募資料工程人員的標準,和傳統軟體工程師的要求,有很大的不同。他解釋,過去對於軟體工程師的要求,只要在越短的時限內,滿足各項開發規格就好。但是現在進入大數據分析的時代,對於資料工程師的要求更加嚴格,除了要能撰寫可執行、沒有系統臭蟲的程式外,還要判斷程式的成效為何。許明彥以廣告專案為例,過去只要廣告能順利推播即可,但是現在的資料工程師要思考,如何提升網友注目廣告的時間。因此,要不斷從錯誤中學習,並且根據瀏覽行為改變,並且不停修改模型,「還要找到方法,預測自己開發的程式,是否達到預期表現。」

《全文請見iThome(https://www.ithome.com.tw/news/120493)》