複製鏈接
請複製以下鏈接發送給好友

語音處理

鎖定
語音處理(speech signal processing)用以研究語音發聲過程、語音信號的統計特性、語音的自動識別、機器合成以及語音感知等各種處理技術的總稱。由於現代的進音處理技術都以數字計算為基礎,並藉助微處理器、信號處理器或通用計算機加以實現,因此也稱數字語音信號處理。
中文名
語音處理
外文名
speech signal processing
應用學科
通信

語音處理定義

語音信號處理的研究起源於對發音器官的模擬。1939年美國H.杜德萊(H.Dudley)展出了一個簡單的發音過程模擬系統,以後發展為聲道的數字模型。利用該模型可以對語音信號進行各種頻譜及參數的分析,進行通信編碼或數據壓縮的研究,同時也可根據分析獲得的頻譜特徵或參數變化規律,合成語音信號,實現機器的語音合成。利用語音分析技術,還可以實現對語音的自動識別,發音人的自動辨識,如果與人工智能技術結合,還可以實現各種語句的自動識別以至語言的自動理解,從而實現人機語音交互應答系統,真正賦予計算機以聽覺的功能。
語言信息主要包含在語音信號的參數之中,因此準確而迅速地提取語言信號的參數是進行語音信號處理的關鍵。常用的語音信號參數有:共振峯幅度、頻率與帶寬、音調和噪音、噪音的判別等。後來又提出了線性預測係數、聲道反射係數和倒譜參數等參數。這些參數僅僅反映了發音過程中的一些平均特性,而實際語言的發音變化相當迅速,需要用非平穩隨機過程來描述,因此,20世紀80年代之後,研究語音信號非平穩參數分析方法迅速發展,人們提出了一整套快速的算法,還有利用優化規律實現以合成信號統計分析參數的新算法,取得了很好的效果。
當語音處理向實用化發展時,人們發現許多算法的抗環境干擾能力較差。因此,在噪聲環境下保持語音信號處理能力成為了一個重要課題。這促進了語音增強的研究。一些具有抗干擾性的算法相繼出現。當前,語音信號處理日益同智能計算技術和智能機器人的研究緊密結合,成為智能信息技術中的一個重要分支。
語音信號處理是一門多學科的綜合技術。它以生理、心理、語言以及聲學等基本實驗為基礎,以信息論、控制論、系統論的理論作指導,通過應用信號處理、統計分析、模式識別等現代技術手段,發展成為新的學科。1965年出版的《語音的分析、合成與感知(J.L.Flanagan著),1976年出版的《語音信號線性預測》(J.Q.Makoul與A.H.Gray著),以及1978年出版的《語音信號數字處理R.Rabiner和R.W.Shafer著)等教材比較全面地反映了這門學科的一些基本理論、 方法及成果。我國學者吳宗濟、林茂燦主編的《實驗語音學概要》,從語音產生的物理基礎、生理基礎、語音知覺的心理基礎以及元音、輔音和聲調特徵等方面,給出了較詳細的實驗研究方法和數據。80年代後期開始對聽覺器官耳蝸的研究,為研究非線性語音處理方法提供了可供借鑑的依據。高速信號處理器的迅速發展,神經網絡模擬芯片的研究成功,為實現實時語音處理系統創造了物質條件,使大批語音處理技術實際應用於生產、國防等許多部門。
語音信號處理在通信、國防等部門中有着廣闊的應用領域。為了改善通信中語言信號的質量而研究的各種頻響修正和補償技術,為了提髙效率而研究的數據編碼壓縮技術,以及為了改善通信條件而研究的噪聲抵消及干擾抑制技術,都與語音處理密切相關。在國防通信及指揮部門中,應用語音處理,可以實現在各種不同通信條件下的話帶保密通信,計算機網絡中的話音和數據綜合通信,在強噪聲環境(例如,髙性能戰鬥機,直升機環境和戰場指揮所等)中使用的語音識別裝置,克服強幹擾影響語音降質的噪聲消除裝置,説話人識別與説話人證實,以及各種先進空中交通控制用的交互式語音識別/合成接口等等,都是現代指揮自動化的重要組成部分。在金融部門應用語音處理,開始利用説話人識別和語音識別實現根據用户語音自動存款、取款的業務。在儀器儀表和控制自動化生產中,利用語音合成讀出測量數據和故障警告。隨着語音處理技術的發展,可以預期它將在更多部門得到應用。
圖1 語音識別技術原理圖 圖1 語音識別技術原理圖
儘管語音處理的研究已經經歷了將近50年的歷史,取得了許多成果,但是還面臨着一系列理論和方法上的實際問題。例如在編碼技術方面,中速編碼已經可以提供滿意的通信音質,那麼低速編碼是否也能突破低通信音質的侷限,達到電話音質的要求?在識別方面,連續語音的分割,大詞量語音的識別和識別任何人的語音等方面尚無可靠的辦法。在語音理解方面,關於語義信息的定性描述和定量估計,都還沒有統一的計算方法等,這些都是今後研究的重要方向。

語音處理語音理解

語音理解(speech understanding) 利用知識表達和組織等人工智能技術進行語句自動識別和語意理解。同語音識別的主要不同點是對語法和語義知識的充分利用程度。
語音理解起源於美國,1971年,美國遠景研究計劃局(ARPA)資助了一個龐大的研究項目,該項目要達到的目標叫做語音理解系統。由於人對語音有廣泛的知識,可以對要説的話有一定的預見性,所以人對語音具有感知和分析能力。依靠人對語言和談論的內容所具有的廣泛知識,利用知識提高計算機理解語言的能力,就是語音理解研究的核心。
利用理解能力,可以使系統提高性能:①能排除噪聲和嘈雜聲;②能理解上下文的意思並能用它來糾正錯誤,澄清不確定的語義;③能夠處理不合語法或不完整的語句。因此,研究語音理解的目的,可以説是與其研究系統仔細地去識別每一個單詞,倒不如去研究系統能抓住説話的要旨更為有效。
一個語音理解系統除了包括原語音識別所要求的 部分之外,還須添入知識處理部分。知識處理包括知識的自動收集、知識庫的形成,知識的推理與檢驗等。當然還希望能有自動地作知識修正的能力。因此語音理解可以認為是信號處理與知識處理結合的產物。語音知識包括音位知識、音變知識、韻律知識、詞法知識、句法知識,語義知識以及語用知識。這些知識涉及實驗語音學、漢語語法、自然語言理解、以及知識搜索等許多交叉學科。
初步研製成功的語音理解系統稱為HEARSAY系統。它是利用一種公用“黑板"作為知識庫,環繞此黑板的是一系列專家系統,分別提取及搜索有關音位、音變……等各種知識。以後能進一步達到預計目標的系統是HARPY系統,該系統用語言的有限狀態模型,通過唯一的一個統一的網絡把彼此分離的各種知識源集中起來,這個統一的網絡,稱為知識編譯器。不同理解系統在利用知識的策略或組織方面各有不同的特點。
完善的語音理解系統是人們夢寐以求的研究理想,但這並非短期內能夠完全解決的研究課題。然而面向確定任務的語音理解系統,例如只涉及有限的詞彙量,有一般比較通用的説話句型的語音理解系統,以及可供一定範圍的工作人員使用的語音理解系統,是可以實現的。因此,它對某些自動化應用領域已有實用價值,例如飛機票預售系統、銀行業務、旅館業務的登記及詢問系統等。

語音處理語音識別

語音識別(speech recognition) 利用計算機自動對語音信號的音素、音節或詞進行識別的技術總稱。語音識別是實現語音自動控制的基礎。
語音識別起源於20世紀50年代的“口授打字機”夢想,科學家在掌握了元音的共振峯變遷問題和輔音的聲學特性之後,相信從語音到文字的過程是可以用機器實現的,即可以把普通的讀音轉換成書寫的文字。語音識別的理論研究已經有40多年,但是轉入實際應用卻是在數字技術、集成電路技術發展之後,現在已經取得了許多實用的成果。
語音識別一般要經過以下幾個步驟:①語音預處理,,包括對語音的幅度標稱化、頻響校正、分幀、加窗和始末端點檢測等內容。②語音聲學參數分析,包括對語音共振峯頻率、幅度等參數,以及對語音的線性預測參數、倒譜參數等的分析。③參數標稱化,主要是時間軸上的標稱化,常用的方法有動態時間規整(DTW),或動態規劃方法(DP)。④模式匹配,可以採用距離準則或概率規則,也可以採用句法分類等。⑤識別判決,通過最後的判別函數給出識別的結果。
語音識別可按不同的識別內容進行分類:有音素識別、音節識別、詞或詞組識別;也可以按詞彙量分類:有小詞彙量(50個詞以下)、中詞量(50~500個詞)、大詞量(500個詞以上)及超大詞量(幾十至幾萬個詞)。按照發音特點分類:可以分為孤立音、連接音及連續音的識別。按照對發音人的要求分類:有認人識別,即只對特定的發話人識別,和不認人識別,即不分發話人是誰都能識別。顯然,最困難的語音識別是大詞量、連續音和不識人同時滿足的語音識別。