反饋

聲紋識別

聲紋識別，生物識別技術的一種，也稱為説話人識別，包括説話人辨認和説話人確認。聲紋識別就是把聲信號轉換成電信號，再用計算機進行識別。不同的任務和應用會使用不同的聲紋識別技術，如縮小刑偵範圍時可能需要辨認技術，而銀行交易時則需要確認技術。^[1]

2024年3月15日，2024年中央廣播電視總枱3·15晚會曝光了利用聲紋識別AI詐騙行為。^[8]

中文名: 聲紋識別
外文名: Voiceprint
別名: 説話人識別

關鍵問題: 特徵提取，模式匹配(模式識別)
分類: 説話人辨認和説話人確認
轉換: 聲信號轉換為電信號

聲紋識別簡介

聲紋生理圖

所謂聲紋(Voiceprint)，是用電聲學儀器顯示的攜帶言語信息的聲波頻譜。人類語言的產生是人體語言中樞與發音器官之間一個複雜的生理物理過程，人在講話時使用的發聲器官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形態方面每個人的差異很大，所以任何兩個人的聲紋圖譜都有差異。每個人的語音聲學特徵既有相對穩定性，又有變異性，不是絕對的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝，也與環境干擾有關。儘管如此，由於每個人的發音器官都不盡相同，因此在一般情況下，人們仍能區別不同的人的聲音或判斷是否是同一人的聲音。^[1] 如圖《聲紋生理圖》所示。

聲紋識別優缺點

聲紋識別

聲紋識別的應用有一些缺點，比如同一個人的聲音具有易變性，易受身體狀況、年齡、情緒等的影響；比如不同的麥克風和信道對識別性能有影響；比如環境噪音對識別有干擾；又比如混合説話人的情形下人的聲紋特徵不易提取；……等等。儘管如此，與其他生物特徵相比，聲紋識別的應用有一些特殊的優勢：(1)藴含聲紋特徵的語音獲取方便、自然，聲紋提取可在不知不覺中完成，因此使用者的接受程度也高；(2)獲取語音的識別成本低廉，使用簡單，一個麥克風即可，在使用通訊設備時更無需額外的錄音設備；(3)適合遠程身份確認，只需要一個麥克風或電話、手機就可以通過網路(通訊網絡或互聯網絡)實現遠程登錄；(4)聲紋辨認和確認的算法複雜度低；(5)配合一些其他措施，如通過語音識別進行內容鑑別等，可以提高準確率；……等等。這些優勢使得聲紋識別的應用越來越受到系統開發者和用户青睞，聲紋識別的世界市場佔有率15.8%，僅次於指紋和掌紋的生物特徵識別，並有不斷上升的趨勢。^[2]

聲紋識別分類

聲紋識別(Voiceprint Recognition, VPR)，也稱為説話人識別(Speaker Recognition)，有兩類，即説話人辨認(Speaker Identification)和説話人確認(Speaker Verification)。前者用以判斷某段語音是若干人中的哪一個所説的，是“多選一”問題；而後者用以確認某段語音是否是指定的某個人所説的，是“一對一判別”問題。不同的任務和應用會使用不同的聲紋識別技術，如縮小刑偵範圍時可能需要辨認技術，而銀行交易時則需要確認技術。不管是辨認還是確認，都需要先對説話人的聲紋進行建模，這就是所謂的“訓練”或“學習”過程。^[3]

聲紋識別文本相關

從另一方面，聲紋識別有文本相關的(Text-Dependent)和文本無關的(Text-Independent)兩種。與文本有關的聲紋識別系統要求用户按照規定的內容發音，每個人的聲紋模型逐個被精確地建立，而識別時也必須按規定的內容發音，因此可以達到較好的識別效果，但系統需要用户配合，如果用户的發音與規定的內容不符合，則無法正確識別該用户。而與文本無關的識別系統則不規定説話人的發音內容，模型建立相對困難，但用户使用方便，可應用範圍較寬。根據特定的任務和應用，兩種是有不同的應用範圍的。比如，在銀行交易時可以使用文本相關的聲紋識別，因為用户自己進行交易時是願意配合的；而在刑偵或偵聽應用中則無法使用文本相關的聲紋識別，因為你無法要求犯罪嫌疑人或被偵聽的人配合。

聲紋識別背景模型

在對説話的人辨認方面，根據待識別的説話人是否在註冊的説話人集合內，説話人辨認可以分為開集(open-set)辨認和閉集(close-set)辨認。前者假定待識別説話人可以在集合外，而後者假定待識別説話人在集合內。顯然，閉集辨認需要有一個對集外説話人的“拒識問題”，而且閉集辨認的結果要好於開集辨認結果。本質上講，説話人確認和開集説話人辨認都需要用到拒識技術，為了達到很好的拒識效果，通常需要訓練一個假冒者模型或背景模型，以便拒識時有可資比較的對象，閾值容易選定。而建立背景模型的好壞直接影響到拒識甚至聲紋識別的性能。一個好的背景模型，往往需要通過預先採集好的若干説話人的數據，通過某種算法去建立。^[2] ^[4]

如果技術達到一定的水平，可以把文本相關識別併入文本無關識別，把閉集辨認併入開集辨認，從而提供更為方便的使用方法。

聲紋識別關鍵問題

聲紋識別可以説有兩個關鍵問題，一是特徵提取，二是模式匹配(模式識別)。

聲紋識別特徵提取

特徵提取的任務是提取並選擇對説話人的聲紋具有可分性強、穩定性高等特性的聲學或語言特徵。與語音識別不同，聲紋識別的特徵必須是“個性化”特徵，而説話人識別的特徵對説話人來講必須是“共性特徵”。雖然大部分聲紋識別系統用的都是聲學層面的特徵，但是表徵一個人特點的特徵應該是多層面的，包括：(1)與人類的發音機制的解剖學結構有關的聲學特徵(如頻譜、倒頻譜、共振峯、基音、反射係數等等)、鼻音、帶深呼吸音、沙啞音、笑聲等；(2)受社會經濟狀況、受教育水平、出生地等影響的語義、修辭、發音、言語習慣等；(3)個人特點或受父母影響的韻律、節奏、速度、語調、音量等特徵。從利用數學方法可以建模的角度出發，聲紋自動識別模型可以使用的特徵包括：(1)聲學特徵(倒頻譜)；(2)詞法特徵(説話人相關的詞n-gram，音素n-gram)；(3)韻律特徵(利用n-gram描述的基音和能量“姿勢”)；(4)語種、方言和口音信息；(5)通道信息(使用何種通道)；等等。

根據不同的任務需求，聲紋識別還面臨一個特徵選擇或特徵選用的問題。例如，對“信道”信息，在刑偵應用上，希望不用，也就是説希望弱化信道對説話人識別的影響，因為我們希望不管説話人用什麼信道系統它都可以辨認出來；而在銀行交易上，希望用信道信息，即希望信道對説話人識別有較大影響，從而可以剔除錄音、模仿等帶來的影響。

總之，較好的特徵，應該能夠有效地區分不同的説話人，但又能在同一説話人語音發生變化時保持相對的穩定；不易被他人模仿或能夠較好地解決被他人模仿問題；具有較好的抗噪性能；……。當然，這些問題也可以通過模型方法去解決。^[1] ^[2]

聲紋識別模式識別

對於模式識別，有以下幾大類方法：

(1)模板匹配方法：利用動態時間彎折(DTW)以對準訓練和測試特徵序列，主要用於固定詞組的應用(通常為文本相關任務)；

(2)最近鄰方法：訓練時保留所有特徵矢量，識別時對每個矢量都找到訓練矢量中最近的K個，據此進行識別，通常模型存儲和相似計算的量都很大；

(3)神經網絡方法：有很多種形式，如多層感知、徑向基函數(RBF)等，可以顯式訓練以區分説話人和其背景説話人，其訓練量很大，且模型的可推廣性不好；

(4)隱式馬爾可夫模型(HMM)方法：通常使用單狀態的HMM，或高斯混合模型(GMM)，是比較流行的方法，效果比較好；

(5)VQ聚類方法(如LBG)：效果比較好，算法複雜度也不高，和HMM方法配合起來更可以收到更好的效果；

(6)多項式分類器方法：有較高的精度，但模型存儲和計算量都比較大；

(7)……

聲紋識別需要解決的關鍵問題還有很多，諸如：短話音問題，能否用很短的語音進行模型訓練，而且用很短的時間進行識別，這主要是聲音不易獲取的應用所需求的；聲音模仿(或放錄音)問題，要有效地區分開模仿聲音(錄音)和真正的聲音；多説話人情況下目標説話人的有效檢出；消除或減弱聲音變化(不同語言、內容、方式、身體狀況、時間、年齡等)帶來的影響；消除信道差異和背景噪音帶來的影響；……此時需要用到其他一些技術來輔助完成，如去噪、自適應等技術。

對説話人確認，還面臨一個兩難選擇問題。通常，表徵説話人確認系統性能的兩個重要參數是錯誤拒絕率(False Rejection Rate, FRR)和錯誤接受率(False Acceptation Rate, FAR)，前者是拒絕真正説話人而造成的錯誤，後者是接受集外説話人而造成的錯誤，二者與閾值的設定相關，兩者相等的值稱為等錯率(Equal Error Rate, EER)。在現有的技術水平下，兩者無法同時達到最小，需要調整閾值來滿足不同應用的需求，比如在需要“易用性”的情況下，可以讓錯誤拒絕率低一些，此時錯誤接受率會增加，從而安全性降低；在對“安全性”要求高的情況下，可以讓錯誤接受率低一些，此時錯誤拒絕率會增加，從而易用性降低。前者可以概括為“寧錯勿漏”，而後者可以“寧漏勿錯”。我們把真正閾值的調整稱為“操作點”調整。好的系統應該允許對操作點的自由調整。^[2] ^[5]

聲紋識別應用

聲紋識別可以應用的範圍很寬，可以説聲紋識別幾乎可以應用到人們日常生活的各個角落。比如下面舉幾個例子。

(1)信息領域。比如在自動總機系統中，把身份證之聲紋辨認和關鍵詞檢出器結合起來，可以在姓名自動撥號的同時向受話方提供主叫方的身份信息。前者用於身份認證，後者用於內容認證。同樣，聲紋識別技術可以在呼叫中心(Call Center)應用中為註冊的常客户提供友好的個性化服務。

(2)銀行、證券。鑑於密碼的安全性不高，可以用聲紋識別技術對電話銀行、遠程炒股等業務中的用户身份進行確認，為了提供安全性，還可以採取一些其他措施，如密碼和聲紋雙保險，如隨機提示文本用文本相關的聲紋識別技術進行身份確認(隨機提示文本保證無法用事先錄好的音去假冒)，甚至可以把交易時的聲音錄下來以備查詢。

(3)公安司法。對於各種電話勒索、綁架、電話人身攻擊等案件，聲紋辨認技術可以在一段錄音中查找出嫌疑人或縮小偵察範圍；聲紋確認技術還可以在法庭上提供身份確認（同一性鑑定）的旁證。在監獄親情電話應用中，通過採集犯人家屬的聲紋信息，可有效鑑別家屬身份的合法性。在司法社區矯正應用中，通過識別定位手機位置和呼叫對象説話聲音的個人特徵，系統就可以快速的自動判斷被監控人是否在規定的時間出現在規定的場所，有效地解決人機分離問題。

(4)軍隊和國防。聲紋辨認技術可以察覺電話交談過程中是否有關鍵説話人出現，繼而對交談的內容進行跟蹤(戰場環境監聽)；在通過電話發出軍事指令時，可以對發出命令的人的身份進行確認(敵我指戰員鑑別)。該技術在國外軍事方面已經有所應用，據報道，迫降在我國海南機場的美軍EP-3偵察機中就載有類似的聲紋識別偵聽模塊。

(5)保安和證件防偽。如機密場所的門禁系統。又如聲紋識別確認可用於信用卡、銀行自動取款機、門、車的鑰匙卡、授權使用的電腦、聲紋鎖以及特殊通道口的身份卡，把聲紋存在卡上，在需要時，持卡者只要將卡插入專用機的插口上，通過一個傳聲器讀出事先已儲存的暗碼，同時儀器接收持卡者發出的聲音，然後進行分析比較，從而完成身份確認。同樣可以把含有某人聲紋特徵的芯片嵌入到證件之中，通過上面所述的過程完成證件防偽。^[2]

聲紋識別實際應用

社保聲紋認證方案總設計圖

如圖《社保聲紋認證方案總設計圖》所示。

方案背景

社保社會化以後，因為就業單位的搬遷、變更、關閉，退休人員異地養老等原因，造成投保人員頻繁流動、分散。所以確定投保人的生存狀況一直是社保支付理賠工作中的一個難題，全國各地陸續出現了社保基金被冒領的現象，尤其是養老保險金被冒領的情況更為嚴重；解決這一難題的出路在於採用生物識別技術進行身份認證，而語音生物特徵(聲紋)識別是唯一可用於非接觸式、通過電話網絡遠程安全控制的生物識別方法。

語音生物特徵識別，又稱説話人識別，俗稱聲紋識別，是根據説話人的發音生理和行為特徵，自動識別説話人身份的一種生物識別方法。聲紋識別所提供的安全性可與其他生物識別技術（如：指紋、掌形和虹膜）相媲美，而且語音採集裝置造價低廉，只需電話/手機或麥克風即可，無需特殊的設備；它與説話語言無關，與方言腔調無關，不涉及隱私問題，適應人羣範圍很廣；聲音信號便於遠程傳輸和獲取，在基於電信和網絡的身份識別應用中，聲紋識別更為擅長，得天獨厚。

聲紋識別技術原理

養老金能否被冒領的關鍵問題之一就是：能否快速安全準確地遠程識別和確認社保對象的身份；只要能通過某種簡單方便且安全可靠的手段確保身份合法，就可以基本杜絕養老金被非法領取的現象。類似於人類的指紋和DNA，聲紋也是人體獨特的個性生物特徵，很難找到兩個聲紋完全一樣的人。如果能夠預先採集到養老金領取人的聲音樣本，從中抽取出聲紋識別“基因”序列，然後在定期的資格認證時，將領取人的聲紋與聲紋庫中的聲紋進行比對確認，就能夠輕易地判斷領取人是否合法。對於極少量的聾啞人羣等特殊人羣，再輔以人工檢查手段確認。這樣兩者結合起來，不僅將大幅度降低冒領的可能性，而且極大地提供社保服務機構的工作效率。

聲紋識別的主要任務包括：語音信號處理、聲紋特徵提取、聲紋建模、聲紋比對、判別決策等。社保服務對象的聲紋身份認證，分為兩個階段：一是聲紋註冊階段：可能在社區工作人員的現場監督下，社保服務對象採用電話語音交互應答的方式向系統輸入註冊語音樣本，系統利用從註冊語音中提取的聲紋特徵序列，為用户構建聲紋模型；二是聲紋認證階段：社保服務對象通常會被要求定期地做資格認證，那麼他/她可以隨時隨地通過移動/電話直接撥打社保服務熱線，在遠端系統的語音提示下，在線應答説話，系統自動地錄取用户的語音，開展聲紋識別身份認證；另外，系統可以根據電話用户語音身份認證的狀況，適當地更新或者調整用户的聲紋模型。

聲紋識別系統結構

整個系統的物理結構主要由三大部分組成：

電話通信終端：主要由養老金領取人使用，通過移動/電話進行遠程非接觸式聲紋認證；

電腦操控終端：主要由社保管理機構的工作人員使用，通過它可以查詢每期的聲紋認證結果，維護用户信息和聲紋數據庫，對於已經不具備養老金髮放資格的人員辦理停止發放手續等；

服務器端：主要包括聲紋識別服務器、語音識別服務器和web服務器。其中，聲紋識別服務器是一個融合多種技術的服務器，它由一系列分工協作的服務子系統構成，包括：電話語音交互應答、聲紋自動識別、應用信息查詢和數據庫等系統。語音識別服務器，有語音合成、語音識別等子系統構成。web服務器主要是提供對受保人員的語音數據、聲紋數據以及驗證記錄的管理功能。

採用這種高科技手段來開展社保身份認證與管理，只需要在社保機構的總部安裝一套社保服務器系統，在社保經辦機構安裝有普通的PC機，連接普通電話線或者ISDN數字專線即可工作，客户端則僅需要一台普通的固定電話或者移動電話，使用操作簡單，認證準確安全可靠。

為進一步加強社會養老保險資金的管理與監督，防止養老基金流失，人社局推出一系列的生存認證新方案。其中，基於聲紋識別的社保身份認證受到極大程度的關注。

聲紋識別應用規範

中國人民銀行日前正式對外發布《移動金融基於聲紋識別的安全應用技術規範》金融行業標準，這意味着聲紋識別技術得到金融監管部門的認可。這也為聲紋識別技術進入移動金融領域解決了標準難題。^[6]

聲紋識別相關規定

2021年11月，我國擬規定不得將聲紋識別等生物特徵作為唯一個人身份認證方式。^[7]

聲紋識別央視曝光

2024年3月15日，2024年中央廣播電視總枱3·15晚會曝光了利用聲紋識別AI詐騙行為。^[8]

參考資料

1. 吳朝暉，楊瑩春．説話人識別模型與方法：清華大學出版社，2009.3
2. 徐麗敏．魯棒性説話人識別技術在移動商務中的應用研究：南京大學出版社，2011.12
3. 孫貽滋, 黃大幹, 高繼斌. 聲紋識別技術在電子銀行領域的應用[J]. 金融科技時代, 2013(3):60-62.
4. 支持開集的語者識別系統的設計與實施[D]. 北京郵電大學, 2014.
5. 楊幫華，李昕，楊磊，馬世偉．模式識別技術及其應用：科學出版社，2016.3
6. 央行發佈移動金融聲紋識別技術規範．新華網．11月1日[引用日期2018-12-04]
7. 我國擬規定不得將人臉等生物特徵作為唯一個人身份認證方式．新華網[引用日期2021-11-15]
8. AI詐騙，圍獵普通人｜315特稿．澎湃[引用日期2024-03-15]

聲紋識別的概述圖（2張）

詞條統計

瀏覽次數：次
編輯次數：41次歷史版本
最近更新：山谷中凄凉的风（2024-03-15）

1 簡介
2 優缺點
3 分類: 3.1 文本相關; 3.2 背景模型
4 關鍵問題: 4.1 特徵提取; 4.2 模式識別; 4.3 應用
5 實際應用: 5.1 技術原理; 5.2 系統結構; 5.3 應用規範
6 相關規定
7 央視曝光

聲紋識別

目錄

聲紋識別簡介

聲紋識別優缺點

聲紋識別分類

聲紋識別文本相關

聲紋識別背景模型

聲紋識別關鍵問題

聲紋識別特徵提取

聲紋識別模式識別

聲紋識別應用

聲紋識別實際應用

聲紋識別技術原理

聲紋識別系統結構

聲紋識別應用規範

聲紋識別相關規定

聲紋識別央視曝光