反饋

連續語音識別

連續語音識別，是指針對連續音頻流（即來自説話人直接錄入的語音，或者電話或其他音視頻領域的音頻信號）進行識別，將音頻信息自動轉化成文字。

中文名: 連續語音識別
外文名: Continuous speech recognition
類型: 計算機科學

學科: 跨學科
性質: 識別
應用: 人機交互

連續語音識別介紹

語音識別是人機交互的一項關鍵技術，在過去的幾十年裏取得了飛速的進展。傳統的聲學建模方式基於隱馬爾科夫框架，採用混合高斯模型( Gaussian mixturemodel，GMM) 來描述語音聲學特徵的概率分佈．由於隱馬爾科夫模型屬於典型的淺層學習結構，僅含單個將原始輸入信號轉換到特定問題空間特徵的簡單結構，在海量數據下其性能受到限制。

連續語音識別，是指針對連續音頻流（即來自説話人直接錄入的語音，或者電話或其他音視頻領域的音頻信號）進行識別，將音頻信息自動轉化成文字。在輸入的聲音中，檢測出可靠的語音，排除靜音、背景噪聲、音樂等，判斷男女，實時送入語音識別解碼器進行識別。

連續語音識別方法

1、隱式馬爾科夫模型

隱馬爾科夫模型是一種統計模型，它用來描述 1 個含有隱含未知參數的馬爾科夫過程，廣泛運用於語音識別中。1系統首先由大量的文字生成語音模型，然後提取聲學特徵，經過 Viterbi解碼得到識別結果。

2、基於卷積神經網絡的方法

卷積神經網絡通過卷積器對局部特徵進行分析，通過聚合層加強抽取出來的特徵魯棒性，最後通過全網絡層建立模型得到最後的分類結果。卷積神經網絡通過卷積層對局部特徵進行觀察，再經過全網絡層的信息整合最終得到輸出概率，相比深層神經網絡具有更好的物理意義。

連續語音識別應用

1、在安全領域，相關部門結合相關業務提出了相應的需求；在教育領域，大人羣的普通話水平測試與口語評估迫切需要客觀的、自動的評估技術；

2、在電信領域，國內外語音識別技術和部門進入了中國市場；

3、在手機、汽車導航等嵌入式市場，對語音識別技術需求也日益增長；

4、在人機交互領域，語音伴侶、移動終端的語音搜索等得到廣泛的應用。

因此，語音識別技術作為非常重要的人機交互的技術，有着非常廣闊的前景。^[1]

參考資料

1. 漢語大詞彙量連續語音識別系統研究進展．中文信息學報[引用日期2017-06-09]

詞條統計

瀏覽次數：次
編輯次數：2次歷史版本
最近更新：银银66188 （2022-05-15）

1 介紹
2 方法
3 應用

連續語音識別

目錄

連續語音識別介紹

連續語音識別方法

連續語音識別應用