複製鏈接
請複製以下鏈接發送給好友

語音識別模塊

鎖定
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與説話人識別及説話人確認不同,後者嘗試識別或確認發出語音的説話人而非其中所包含的詞彙內容。
中文名
語音識別模塊
外文名
speechrecognitionmodule

語音識別模塊技術簡介

語音識別 [1]  模塊是在一種基於嵌入式的語音識別技術的模塊,主要包括語音識別芯片和一些其他的附屬電路,能夠方便的與主控芯片進行通訊,開發者可以方便的將該模塊嵌入到自己的產品中使用,實現語音交互的目的。

語音識別模塊基本原理

語音識別的基本原理如圖1所示。語音識別包括兩個階段:訓練和識別。不管是訓練還是識別,都必須對輸入語音預處理和特徵提取。訓練階段所做的具體工作是收集大量的語音語料,經過預處理和特徵提取後得到特徵矢量參數,最後通過特徵建模達到建立訓練語音的參考模型庫的目的。而識別階段所做的主要工作是將輸入語音的特徵矢量參數和參考模型庫中的參考模型 進行相似性度量比較,然後把相似性最高的輸入特徵矢量作為識別結果輸出。 這樣,最終就達到了語音識別的目的。
圖1 語音識別的基本原理 圖1 語音識別的基本原理
現有的識別技術按照識別對象可以分為特定人識別和非特定人識別。特定人識別是指識別對象為專門的人,非特定人識別是指識別對象是針對大多數用户,一般需要採集多個人的語音進行錄音和訓練,經過學習,達到較高的識別率。
基於現有技術開發嵌入式語音交互系統,目前主要有兩種方式:一種是直接在嵌入式處理器中調用語音開發包;另一種是嵌入式處理器外圍擴展語音芯片。第一種方法程序量大,計算複雜,需要佔用大量的處理器資源,開發週期長;第二種方法相對簡單,只需要關注語音芯片的接口部分與微處理器相連,結構簡單,搭建方便,微處理器的計算負擔大大降低,增強了可靠性,縮短了開發週期。
本文的語音識別模塊是以嵌入式微處理器為核心,外圍加非特定人語音識別芯片及相關電路構成。

語音識別模塊最小系統

一般應用中語音識別系統最小系統需要包括:控制器模塊、語音識別模塊、功放模塊、喇叭。如果需要使用語音識別功能,系統中還需要增加麥克風。
如圖2所示,用户在使用語音識別或語音喚醒功能時,上位機發送啓動語音識別或語音喚醒功能的命令給語音模塊,模塊把從麥克風採集到的語音數據,通過內部的識別模塊進行轉換成相應的識別結果,通過通訊接口回傳給控制器。
圖2-採用Syn7318語音識別模塊的系統構成圖
圖2 圖2

語音識別模塊應用

隨着技術的發展,傳統的鍵盤和按鈕才操作已經不能滿足人們得需求了,更方便、更自然、更人性化的人機交互方式成了人們追求的方向。基於聽覺的人機交互方式無疑是最具有交互友好性的方式之一。而嵌入式語音交互由於結構簡單,搭建方便,已成為目前研究的熱門課題。嵌入式語音識別系統和PC機的語音識別系統相比,雖然其運算速度和內存容量有一定限制,但它具有體積小、功耗低、可靠性高、投入小、安裝靈活等優點,特別適用於智能家居、機器人及消費電子等領域。
參考資料