「護聲符」識別語音真偽 盼降低合成音訊詐騙風險

第1801期

2024-11-29

【記者林偌甯報導】隨著深度偽造（Deepfake）迅速發展，詐騙集團利用合成聲音詐財的案例層出不窮。針對此問題，國立臺灣科技大學資訊管理系助理教授黃政嘉指導學生王玟雅、蔡婷玗、陳俞縕、毛世鑫，開發「應用音訊浮水印於對抗式攻擊與深度學習之數位護聲符系統」，並榮獲「2024第29屆大專校院資訊應用服務創新競賽」資安應用組第二名、資訊應用組第三名。

臺科大資管系師生研發數位護聲符系統，結合音訊浮水印技術，對抗深偽詐騙。　圖／王玟雅提供

根據全球防詐聯盟GASA（Global Anti-Scam Alliance, GASA）統計，2023年國人透過簡訊、電話接觸詐騙的機率分別高達56%與54%。王玟雅表示，AI語音合成技術已對民眾造成困擾，詐騙者僅需將音檔上傳至合成平台即可偽造聲音，而現有的聲音防偽工具無法滿足即時辨別真偽需求。為填補技術缺口，團隊開發此系統，王玟雅說：「目前尚無APP能即時偵測，護聲符兼具語音辨識與防護，讓使用者能即時檢測聲訊真偽。」軟體用戶可以選擇上傳或錄製一段聲音，軟體便會偵測並分析真假機率。

軟體在分析語音真偽時，會檢視音訊是否包含數位浮水印，辨識後將傳送通知至裝置背景。　圖／王玟雅提供

開發過程中，團隊首先蒐集公開的真人原始語音樣本資料集，經由開源AI合成音訊，再透過偵測模型RawNet2比對原始與合成音訊之間的差異，訓練系統判別真偽。目前軟體辨識真人聲的準確率達99.99%，合成聲則為99.94%。

用戶上傳或錄製聲音後，軟體會標註聲音、提取特徵，再透過模型比對真人聲與AI合成聲的差異。　圖／王玟雅提供

面對聲音易被盜取、不當利用，黃政嘉說：「我們用對抗式攻擊技術，在極高或極低頻處加入人耳難以察覺的雜訊。」他解釋，這麼做是讓合成平台無法變造聲音，或僅能生成聽覺上不自然的合成音檔。」此外，團隊也在音訊中加入二進制（Binary）標記（註）作為浮水印，可作為辨識來源的依據，進一步保護版權與侵權舉證。

註：二進制標記是把0和1的數位資訊藏在音訊中的技術，用來追蹤來源和保護版權。

「護聲符」在聲音中加入細微的雜訊，干擾合成平台，使其不易偽造又能保留音質。　圖／王玟雅提供

軟體目前支援識別音檔與新增浮水印，團隊未來將優化應用場景，盼軟體在使用者通話當下就能辨別真偽。「訓練模型的資料集大多是英文的，蒐集中文語音較困難。」王玟雅表示目前需更多中文資料訓練模型，軟體才更適用於台灣。對此，國立政治大學資訊科學系教授左瑞麟建議，團隊可以透過AI工具從少量的中文樣本延伸出更多聲音資料。

標籤：詐騙 , 深度偽造 , 偵測 , 浮水印

「護聲符」識別語音真偽 盼降低合成音訊詐騙風險

「護聲符」識別語音真偽　盼降低合成音訊詐騙風險