-
連續語音識別
鎖定
連續語音識別,是指針對連續音頻流(即來自説話人直接錄入的語音,或者電話或其他音視頻領域的音頻信號)進行識別,將音頻信息自動轉化成文字。
- 中文名
- 連續語音識別
- 外文名
- Continuous speech recognition
- 類 型
- 計算機科學
- 學 科
- 跨學科
- 性 質
- 識別
- 應 用
- 人機交互
連續語音識別介紹
語音識別是人機交互的一項關鍵技術,在過去的幾十年裏取得了飛速的進展。傳統的聲學建模方式基於隱馬爾科夫框架,採用混合高斯模型( Gaussian mixturemodel,GMM) 來描述語音聲學特徵的概率分佈.由於隱馬爾科夫模型屬於典型的淺層學習結構,僅含單個將原始輸入信號轉換到特定問題空間特徵的簡單結構,在海量數據下其性能受到限制。
連續語音識別,是指針對連續音頻流(即來自説話人直接錄入的語音,或者電話或其他音視頻領域的音頻信號)進行識別,將音頻信息自動轉化成文字。在輸入的聲音中,檢測出可靠的語音,排除靜音、背景噪聲、音樂等,判斷男女,實時送入語音識別解碼器進行識別。
連續語音識別方法
1、隱式馬爾科夫模型
隱馬爾科夫模型是一種統計模型,它用來描述 1 個含有隱含未知參數的馬爾科夫過程,廣泛運用於語音識別中。1系統首先由大量的文字生成語音模型,然後提取聲學特徵,經過 Viterbi解碼得到識別結果。
2、基於卷積神經網絡的方法
卷積神經網絡通過卷積器對局部特徵進行分析,通過聚合層加強抽取出來的特徵魯棒性,最後通過全網絡層建立模型得到最後的分類結果。卷積神經網絡通過卷積層對局部特徵進行觀察,再經過全網絡層的信息整合最終得到輸出概率,相比深層神經網絡具有更好的物理意義。
連續語音識別應用
1、在安全領域,相關部門結合相關業務提出了相應的需求;在教育領域,大人羣的普通話水平測試與口語評估迫切需要客觀的、自動的評估技術;
2、在電信領域,國內外語音識別技術和部門進入了中國市場;
3、在手機、汽車導航等嵌入式市場,對語音識別技術需求也日益增長;
4、在人機交互領域,語音伴侶、移動終端的語音搜索等得到廣泛的應用。
- 參考資料
-
- 1. 漢語大詞彙量連續語音識別系統研究進展 .中文信息學報[引用日期2017-06-09]
- 詞條統計
-
- 瀏覽次數:次
- 編輯次數:2次歷史版本
- 最近更新: 银银66188