複製鏈接
請複製以下鏈接發送給好友

連續語音識別

鎖定
連續語音識別,是指針對連續音頻流(即來自説話人直接錄入的語音,或者電話或其他音視頻領域的音頻信號)進行識別,將音頻信息自動轉化成文字。
中文名
連續語音識別
外文名
Continuous speech recognition
類    型
計算機科學
學    科
跨學科
性    質
識別
應    用
人機交互

目錄

連續語音識別介紹

語音識別是人機交互的一項關鍵技術,在過去的幾十年裏取得了飛速的進展。傳統的聲學建模方式基於隱馬爾科夫框架,採用混合高斯模型( Gaussian mixturemodel,GMM) 來描述語音聲學特徵的概率分佈.由於隱馬爾科夫模型屬於典型的淺層學習結構,僅含單個將原始輸入信號轉換到特定問題空間特徵的簡單結構,在海量數據下其性能受到限制。
連續語音識別,是指針對連續音頻流(即來自説話人直接錄入的語音,或者電話或其他音視頻領域的音頻信號)進行識別,將音頻信息自動轉化成文字。在輸入的聲音中,檢測出可靠的語音,排除靜音、背景噪聲、音樂等,判斷男女,實時送入語音識別解碼器進行識別。

連續語音識別方法

1、隱式馬爾科夫模型
隱馬爾科夫模型是一種統計模型,它用來描述 1 個含有隱含未知參數的馬爾科夫過程,廣泛運用於語音識別中。1系統首先由大量的文字生成語音模型,然後提取聲學特徵,經過 Viterbi解碼得到識別結果。
2、基於卷積神經網絡的方法
卷積神經網絡通過卷積器對局部特徵進行分析,通過聚合層加強抽取出來的特徵魯棒性,最後通過全網絡層建立模型得到最後的分類結果。卷積神經網絡通過卷積層對局部特徵進行觀察,再經過全網絡層的信息整合最終得到輸出概率,相比深層神經網絡具有更好的物理意義。

連續語音識別應用

1、在安全領域,相關部門結合相關業務提出了相應的需求;在教育領域,大人羣的普通話水平測試與口語評估迫切需要客觀的、自動的評估技術;
2、在電信領域,國內外語音識別技術和部門進入了中國市場;
3、在手機、汽車導航等嵌入式市場,對語音識別技術需求也日益增長;
4、在人機交互領域,語音伴侶、移動終端的語音搜索等得到廣泛的應用。
因此,語音識別技術作為非常重要的人機交互的技術,有着非常廣闊的前景。 [1] 
參考資料