【記者林偌甯報導】 隨著深度偽造(Deepfake)迅速發展,詐騙集團利用合成聲音詐財的案例層出不窮。針對此問題,國立臺灣科技大學資訊管理系助理教授黃政嘉指導學生王玟雅、蔡婷玗、陳俞縕、毛世鑫,開發「應用音訊浮水印於對抗式攻擊與深度學習之數位護聲符系統」,並榮獲「2024第29屆大專校院資訊應用服務創新競賽」資訊應用組第三名。
臺科大資管系師生研發數位護聲符系統,結合音訊浮水印技術,對抗深偽詐騙。 圖/王玟雅提供
根據全球防詐聯盟GASA(Global Anti-Scam Alliance, GASA)統計,2023年國人透過簡訊、電話接觸詐騙的機率分別高達56%與54%。王玟雅表示,AI語音合成技術已對民眾造成困擾,詐騙者僅需將音檔上傳至合成平台即可偽造聲音,而現有的聲音防偽工具無法滿足即時辨別真偽需求。為填補技術缺口,團隊開發此系統,王玟雅說:「目前尚無APP能即時偵測,護聲符兼具語音辨識與防護,讓使用者能即時檢測聲訊真偽。」軟體用戶可以選擇上傳或錄製一段聲音,軟體便會偵測並分析真假機率。
軟體在分析語音真偽時,會檢視音訊是否包含數位浮水印,辨識後將傳送通知至裝置背景。 圖/王玟雅提供
開發過程中,團隊首先蒐集公開的真人原始語音樣本資料集,經由開源AI合成音訊,再透過偵測模型RawNet2比對原始與合成音訊之間的差異,訓練系統判別真偽。目前軟體辨識真人聲的準確率達99.99%,合成聲則為99.94%。
用戶上傳或錄製聲音後,軟體會標註聲音、提取特徵,再透過模型比對真人聲與AI合成聲的差異。 圖/王玟雅提供
面對聲音易被盜取、不當利用,黃政嘉說:「我們用對抗式攻擊技術,在極高或極低頻處加入人耳難以察覺的雜訊。」他解釋,這麼做是讓合成平台無法變造聲音,或僅能生成聽覺上不自然的合成音檔。」此外,團隊也在音訊中加入二進制(Binary)標記(註)作為浮水印,可作為辨識來源的依據,進一步保護版權與侵權舉證。
註:二進制標記是把0和1的數位資訊藏在音訊中的技術,用來追蹤來源和保護版權。
「護聲符」在聲音中加入細微的雜訊,干擾合成平台,使其不易偽造又能保留音質。 圖/王玟雅提供
軟體目前僅支援識別音檔與新增浮水印,團隊未來將優化應用場景,盼軟體在使用者通話當下就能辨別真偽。「訓練模型的資料集大多是英文的,蒐集中文語音較困難。」王玟雅表示目前需更多中文資料訓練模型,軟體才更適用於台灣。對此,國立政治大學資訊科學系教授左瑞麟建議,團隊可以透過AI工具從少量的中文樣本延伸出更多聲音資料。