反饋

語音處理

語音處理(speech signal processing)用以研究語音發聲過程、語音信號的統計特性、語音的自動識別、機器合成以及語音感知等各種處理技術的總稱。由於現代的進音處理技術都以數字計算為基礎，並藉助微處理器、信號處理器或通用計算機加以實現，因此也稱數字語音信號處理。

中文名: 語音處理

外文名: speech signal processing
應用學科: 通信

語音處理定義

語音信號處理的研究起源於對發音器官的模擬。1939年美國H．杜德萊(H．Dudley)展出了一個簡單的發音過程模擬系統，以後發展為聲道的數字模型。利用該模型可以對語音信號進行各種頻譜及參數的分析，進行通信編碼或數據壓縮的研究，同時也可根據分析獲得的頻譜特徵或參數變化規律，合成語音信號，實現機器的語音合成。利用語音分析技術，還可以實現對語音的自動識別，發音人的自動辨識，如果與人工智能技術結合，還可以實現各種語句的自動識別以至語言的自動理解，從而實現人機語音交互應答系統，真正賦予計算機以聽覺的功能。

語言信息主要包含在語音信號的參數之中，因此準確而迅速地提取語言信號的參數是進行語音信號處理的關鍵。常用的語音信號參數有：共振峯幅度、頻率與帶寬、音調和噪音、噪音的判別等。後來又提出了線性預測係數、聲道反射係數和倒譜參數等參數。這些參數僅僅反映了發音過程中的一些平均特性，而實際語言的發音變化相當迅速，需要用非平穩隨機過程來描述，因此，20世紀80年代之後，研究語音信號非平穩參數分析方法迅速發展，人們提出了一整套快速的算法，還有利用優化規律實現以合成信號統計分析參數的新算法，取得了很好的效果。

當語音處理向實用化發展時，人們發現許多算法的抗環境干擾能力較差。因此，在噪聲環境下保持語音信號處理能力成為了一個重要課題。這促進了語音增強的研究。一些具有抗干擾性的算法相繼出現。當前，語音信號處理日益同智能計算技術和智能機器人的研究緊密結合，成為智能信息技術中的一個重要分支。

語音信號處理是一門多學科的綜合技術。它以生理、心理、語言以及聲學等基本實驗為基礎，以信息論、控制論、系統論的理論作指導，通過應用信號處理、統計分析、模式識別等現代技術手段，發展成為新的學科。1965年出版的《語音的分析、合成與感知（J．L．Flanagan著），1976年出版的《語音信號線性預測》(J．Q．Makoul與A．H．Gray著），以及1978年出版的《語音信號數字處理R．Rabiner和R．W．Shafer著）等教材比較全面地反映了這門學科的一些基本理論、方法及成果。我國學者吳宗濟、林茂燦主編的《實驗語音學概要》，從語音產生的物理基礎、生理基礎、語音知覺的心理基礎以及元音、輔音和聲調特徵等方面，給出了較詳細的實驗研究方法和數據。80年代後期開始對聽覺器官耳蝸的研究，為研究非線性語音處理方法提供了可供借鑑的依據。高速信號處理器的迅速發展，神經網絡模擬芯片的研究成功，為實現實時語音處理系統創造了物質條件，使大批語音處理技術實際應用於生產、國防等許多部門。

語音信號處理在通信、國防等部門中有着廣闊的應用領域。為了改善通信中語言信號的質量而研究的各種頻響修正和補償技術，為了提髙效率而研究的數據編碼壓縮技術，以及為了改善通信條件而研究的噪聲抵消及干擾抑制技術，都與語音處理密切相關。在國防通信及指揮部門中，應用語音處理，可以實現在各種不同通信條件下的話帶保密通信，計算機網絡中的話音和數據綜合通信，在強噪聲環境(例如，髙性能戰鬥機，直升機環境和戰場指揮所等）中使用的語音識別裝置，克服強幹擾影響語音降質的噪聲消除裝置，説話人識別與説話人證實，以及各種先進空中交通控制用的交互式語音識別/合成接口等等，都是現代指揮自動化的重要組成部分。在金融部門應用語音處理，開始利用説話人識別和語音識別實現根據用户語音自動存款、取款的業務。在儀器儀表和控制自動化生產中，利用語音合成讀出測量數據和故障警告。隨着語音處理技術的發展，可以預期它將在更多部門得到應用。

圖1 語音識別技術原理圖

儘管語音處理的研究已經經歷了將近50年的歷史，取得了許多成果，但是還面臨着一系列理論和方法上的實際問題。例如在編碼技術方面，中速編碼已經可以提供滿意的通信音質，那麼低速編碼是否也能突破低通信音質的侷限，達到電話音質的要求？在識別方面，連續語音的分割，大詞量語音的識別和識別任何人的語音等方面尚無可靠的辦法。在語音理解方面，關於語義信息的定性描述和定量估計，都還沒有統一的計算方法等，這些都是今後研究的重要方向。

語音處理語音理解

語音理解(speech understanding) 利用知識表達和組織等人工智能技術進行語句自動識別和語意理解。同語音識別的主要不同點是對語法和語義知識的充分利用程度。

語音理解起源於美國，1971年，美國遠景研究計劃局(ARPA)資助了一個龐大的研究項目，該項目要達到的目標叫做語音理解系統。由於人對語音有廣泛的知識，可以對要説的話有一定的預見性，所以人對語音具有感知和分析能力。依靠人對語言和談論的內容所具有的廣泛知識，利用知識提高計算機理解語言的能力，就是語音理解研究的核心。

利用理解能力，可以使系統提高性能：①能排除噪聲和嘈雜聲；②能理解上下文的意思並能用它來糾正錯誤，澄清不確定的語義；③能夠處理不合語法或不完整的語句。因此，研究語音理解的目的，可以説是與其研究系統仔細地去識別每一個單詞，倒不如去研究系統能抓住説話的要旨更為有效。

一個語音理解系統除了包括原語音識別所要求的部分之外，還須添入知識處理部分。知識處理包括知識的自動收集、知識庫的形成，知識的推理與檢驗等。當然還希望能有自動地作知識修正的能力。因此語音理解可以認為是信號處理與知識處理結合的產物。語音知識包括音位知識、音變知識、韻律知識、詞法知識、句法知識，語義知識以及語用知識。這些知識涉及實驗語音學、漢語語法、自然語言理解、以及知識搜索等許多交叉學科。

初步研製成功的語音理解系統稱為HEARSAY系統。它是利用一種公用“黑板"作為知識庫，環繞此黑板的是一系列專家系統，分別提取及搜索有關音位、音變……等各種知識。以後能進一步達到預計目標的系統是HARPY系統，該系統用語言的有限狀態模型，通過唯一的一個統一的網絡把彼此分離的各種知識源集中起來，這個統一的網絡，稱為知識編譯器。不同理解系統在利用知識的策略或組織方面各有不同的特點。

完善的語音理解系統是人們夢寐以求的研究理想，但這並非短期內能夠完全解決的研究課題。然而面向確定任務的語音理解系統，例如只涉及有限的詞彙量，有一般比較通用的説話句型的語音理解系統，以及可供一定範圍的工作人員使用的語音理解系統，是可以實現的。因此，它對某些自動化應用領域已有實用價值，例如飛機票預售系統、銀行業務、旅館業務的登記及詢問系統等。

語音處理語音識別

語音識別（speech recognition）利用計算機自動對語音信號的音素、音節或詞進行識別的技術總稱。語音識別是實現語音自動控制的基礎。

語音識別起源於20世紀50年代的“口授打字機”夢想，科學家在掌握了元音的共振峯變遷問題和輔音的聲學特性之後，相信從語音到文字的過程是可以用機器實現的，即可以把普通的讀音轉換成書寫的文字。語音識別的理論研究已經有40多年，但是轉入實際應用卻是在數字技術、集成電路技術發展之後，現在已經取得了許多實用的成果。

語音識別一般要經過以下幾個步驟：①語音預處理，，包括對語音的幅度標稱化、頻響校正、分幀、加窗和始末端點檢測等內容。②語音聲學參數分析，包括對語音共振峯頻率、幅度等參數，以及對語音的線性預測參數、倒譜參數等的分析。③參數標稱化，主要是時間軸上的標稱化，常用的方法有動態時間規整（DTW)，或動態規劃方法(DP）。④模式匹配，可以採用距離準則或概率規則，也可以採用句法分類等。⑤識別判決，通過最後的判別函數給出識別的結果。

語音識別可按不同的識別內容進行分類：有音素識別、音節識別、詞或詞組識別；也可以按詞彙量分類：有小詞彙量（50個詞以下）、中詞量（50~500個詞）、大詞量（500個詞以上）及超大詞量（幾十至幾萬個詞）。按照發音特點分類：可以分為孤立音、連接音及連續音的識別。按照對發音人的要求分類：有認人識別，即只對特定的發話人識別，和不認人識別，即不分發話人是誰都能識別。顯然，最困難的語音識別是大詞量、連續音和不識人同時滿足的語音識別。

語音處理的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：8次歷史版本
最近更新：路肩菌（2023-12-24）

1 定義
2 語音理解
3 語音識別

語音處理

目錄

語音處理定義

語音處理語音理解

語音處理語音識別