Google 新研究:讓失語者在視訊會議時以手語自然交流

視訊會議任何人都能用,也應該包括以手語溝通的用戶,但由於大多數視訊會議系統會自動追蹤講話者提示視窗,對使用手語者而言,很難輕鬆溝通。
Google 新研究:讓失語者在視訊會議時以手語自然交流

因此視訊會議採用即時手語偵測就很有挑戰性,系統需要使用大量影片回饋分類匯入的資料,計算工作十分繁重。某種程度這些挑戰也導致很少有手語偵測的研究。

近日 ECCV 2020 和 SLRTP 2020 全球高峰會,Google 研究團隊提出即時手語偵測模型,並詳述模型如何用於視訊會議系統辨識「發言人」的過程。

Google 新研究:讓失語者在視訊會議時以手語自然交流
▲ 以色列手語翻譯 Maayan Gazuli 示範手語檢測系統。

設計思路

為了主動搭配主流視訊會議系統的解決方案,研究團隊採取輕型、即插即用的模型,占用 CPU 小,以最大程度降低對用戶端通話品質的影響。為了減少匯入維度,採用從視訊分離所需資訊,分類每幀。

「由於手語包括用戶身體和手兩部分,我們先執行人體姿態估計模型 PoseNet,這樣可將匯入從整個高清影像大幅減少到用戶身體一小部分,如眼睛、鼻子、肩膀、手等關鍵特徵點(landmarks)。然後再將這些關鍵特徵點用於計算每幀光流(Optical Flow),不保留用戶特定資訊的前提下就能量化用戶姿態特徵。每個姿態都透過肩膀寬度統一,以確保模型在離鏡頭一定距離內注意到用戶手勢。最後,透過影片幀速率統一光流,再傳給模型。」

為了測試有效性,研究團隊採用德語手語資料庫(DGS),包含人體手勢的長片(含跨度註釋)。基於訓練好的線性回歸模型基線,使用光流數預測人體手勢何時發出。模型基線可達 80% 準確度,每幀僅需約 3μs(0.000003 秒)處理時間。透過將前 50 幀光流當作模型上下文,最終達到 83.4% 準確度。

團隊使用長短期記憶網路(LSTM)架構,可達成 91.5% 準確度,每幀處理時間約 3.5 毫秒(0.0035 秒)。

Google 新研究:讓失語者在視訊會議時以手語自然交流

概念驗證

實際場景有了執行完備手語偵測模型僅為第一步,團隊還需要設計方法讓視訊會議系統的主動式揚聲器功能有用。團隊開發輕型級線上手語偵測示範 demo,可連到任何視訊會議系統,並將手語使用者設定為「發言人」。

當手勢偵測模型確定用戶正使用手語時,會透過虛擬音訊電纜傳遞超聲波,任何視訊會議系統都能偵測到,好像手語使用者正在「講話」。音訊以 20kHz 傳送,通常在人類聽覺範圍以外。視訊會議系統通常將音訊音量當成偵測是否正在講話的標準,而不是偵測是否有聲音,所以應用程式會誤以為手語使用者正在講話。

最新科技新聞
人氣科技新聞
行動版 電腦版