【記者何予綜合報導】現今手語辨識模型多以學習手語為目的,尚無法成為聽人(註一)與聽障間的溝通工具。國立政治大學資訊管理學系學生團隊開發「SignLens——手語語音辨識於混合實境應用」,透過智慧型眼鏡進行雙向辨識,提升溝通效率。此發明獲得第27屆大專校院資訊應用服務創新競賽資訊應用組第一名。
註一:聾人稱聽覺正常的人為「聽人」。
語音辨識系統可以將語音即時轉換成文字,透過混合實境裝置可以同時看見對話框和實景,提供聽障使用者即時且具機動性的翻譯服務。 圖/SignLens團隊提供
SignLens軟體包含語音辨識系統和手語辨識系統,能夠即時地將語音和手語轉換成文字,出現在混合實境(Mixed Reality,MR)裝置的螢幕上。團隊透過MediaPipe(註二)建立手語辨識的學習模型,經由大量動態影像資料訓練過後,模型可以學習手部運動,辨識出手語動作對應的語意。
註二:MediaPipe是一項機器學習模型,其中的手部姿態辨識功能,可以追蹤21個手部關鍵3D定位點在空間中的位置,進一步辨識手勢。
手語辨識系統可以將手語動作翻譯成文字,以對話框形式出現在穿戴式裝置Hololens的螢幕上。 圖/SignLens團隊提供
團隊成員宋志謙說明,目前市面上正在開發的手語辨識模型,多以資源和使用人口較多的美國手語(American Sign Language,ASL)為主,而台灣尚未有具統一規格的手語資料庫和辨識系統。「資料集一直都是模型訓練最重要的、最核心的部分。」指導老師簡士鎰說明,面對詞彙資料搜集的困難,團隊初期聘請手語老師提供專業意見和指導,學習手語後自行錄製影片,更開發出「手語辨識資料集收錄平台」,讓使用者能自行錄製、上傳手語影片,補充給模型學習。
此外,團隊成員曹子涵補充道,美國手語翻譯系統大多以網頁為主,需要依賴桌電或筆電的攝影機,而團隊結合MR技術,透過眼鏡內建的攝影機進行拍攝、辨識,使SignLens更具機動性和即時性。台灣手語翻譯協會理事長魏如君樂見其成地說:「只要是能夠幫忙溝通的工具都是好的。」然而,他也建議,手語解讀速度和詞彙量應再提升,才能夠實際發揮作用。
台灣手語翻譯量能缺乏,政府不提供金融開戶等私人場合公費申請翻譯服務,因此團隊開發產品時以金融服務場景為出發。團隊成員朱芷伶說明,「我們傾向以訂閱制的方式,將軟硬體整套一包租借給銀行。如果是有哪些專業詞語的手語資料想要增加,或者是系統需要改進,就可以馬上反饋給他們。」團隊也希望能夠利用平台蒐集到更多手語資料,擴展使用情境。
台灣目前沒有提供一個泛化且有固定規格的手語資料庫,為解決詞彙資料搜集困難,團隊開發出手語辨識資料集收錄平台,讓使用者能自行錄製、上傳手語影片,補充給模型學習。 圖/SignLens團隊提供