複製鏈接
請複製以下鏈接發送給好友

語音文檔檢索

鎖定
語音文檔檢索的任務就是根據用户輸入的查詢項,在海量語音資源中快速搜索並返回與之相關聯的語音文檔或語音片段。語音文檔檢索一般分為索引建立和查詢項檢索兩個階段。
中文名
語音文檔檢索
外文名
Voice document retrieval

語音文檔檢索發展歷程

語音文檔檢索研究起始於20世紀90年代,早期的研究大多采用大詞彙量連續語音識別(Large Vocabulary Continuous Speech Recognition, LVCSR)系統與文本檢索系統簡單結合的方法:首先採用LVCSR系統識別語音文檔得到基於詞的單候選識別結果(1-Best),然後直接利用文本檢索技術對其進行索引和檢索。在2000年文本檢索會議(Text Retrieval Conference, TREC)的SDR專題評測中,許多研究機構採用了這種檢索方法對CNN、BBC、VOA等廣播新聞語料進行檢索實驗,取得了優秀的評測結果。然而這種方法僅適用於識別率較高的廣播新聞語音,對於發音不夠清晰、語法不夠規範的自然語音(Spontaneous Speech)來説,單候選識別結果的錯誤率較高,它往往僅保留語音識別過程中的最優路徑,剪枝掉其餘次優的路徑,然而這些次優的路徑也極有可能是正確的,從而造成了檢索性能的下降。
為了保留更多的正確信息,近年來學者們開始研究基於多候選識別結果的語音文檔檢索技術。詞格(Lattice)是廣泛採用的一種多候選識別結果,它不僅能夠補償識別錯誤帶來的影響,而且能夠提供用於置信度計算的聲學模型得分和語言模型得分。因此,基於Lattice的語音文檔檢索迅速發展成為了當前語音文檔檢索的主流技術,受到了越來越多的重視和青睞,並且相繼有一些針對不同需求開發的實用系統問世,例如:美國電話電報公司(AT&T)以語音郵件瀏覽和搜索為主的SCAN Mail系統、惠普(HP)實驗室針對網絡多媒體檢索開發Speechbot系統、卡內基梅隆大學(CMU)的結合語音檢索、摘要以及可視化等多項技術的Informedia計劃、麻省理工學院(MIT)的Lecture Browser在線課程瀏覽系統以及密歇根大學的Speech Find音頻文件搜索引擎等。隨着基於Lattice的語音文檔檢索技術的不斷髮展,美國國家標準技術局(National Institute of Standards and Technology, NIST)在2006年組織了新一輪針對大規模數據的語音查詢詞檢索(Spoken Term Detection, STD)評測,該評測提供的測試語料中第一次正式引入了自然對話語音(電話錄音、會議錄音)。
在漢語語音文檔檢索研究方面,台灣大學語音實驗室、台灣師範大學資訊工程系、香港中文大學人機通訊實驗室等學術機構針對漢語的結構特點率先開展了相應的研究。國內大陸的研究工作起步相對較晚,但發展勢頭迅猛。在國家自然科學基金的大力支持下,清華大學、中國科技大學、哈爾濱工業大學、浙江大學、中國科學院自動化所和聲學所等機構對都漢語語音文檔檢索技術進行了深入的研究,並取得了卓越的研究成果。例如:王新明等人開發的國語廣播新聞搜索引擎“So Video”,Ye Ruizhi 等人搭建的基於 P2P(peer to peer)架構的語音檢索平台“ASEKS”。另外,鑑於中國未來龐大的市場,國外機構日益重視漢語語音文檔檢索的研究,Microsoft、Google 等國際大公司相繼在中國設立了研發中心並不斷增加漢語語音文檔檢索系統研究的投資,同時 NIST 也把漢語普通話加入到測試語料集進行公開的語音檢索評測,有力推動了該技術的發展 [1] 

語音文檔檢索基於 Lattice 的語音文檔檢索基

基於 Lattice 的語音文檔檢索系統可以分成自動語音識別和查詢項檢索兩個階段來實現,具體過程如圖1所示。在自動語音識別階段,首先對語音文檔提取聲學特徵,然後利用聲學模型、語言模型以及發音詞典進行搜索解碼,最終輸出解碼得到的多候選識別結果—Lattice。在查詢項檢索階段,首先根據用户提出的查詢項,在 Lattice 中搜索與查詢項匹配的局部路徑,並依據 Lattice 中存儲的各種信息來計算匹配路徑的置信度,然後利用搜索結果和其置信度計算語音文檔的相關度,並根據相關度的大小對檢索出的語音文檔進行排序。由上述過程可以看出,Lattice 作為語音文檔索引,有效地連接了自動語音識別和查詢項檢索兩個階段。
參考資料