反饋

語音編碼器

鎖定

語音編碼器的主要功能就是把用户語音的PCM（脈衝編碼調製）樣值編碼成少量的比特（幀）。這種方法使得語音在連路產生誤碼、網絡抖動和突發傳輸時具有健壯性（Robustness）。在接收端，語音幀先被誤碼為PCM語音樣值，然後再轉換成語音波形。

中文名: 語音編碼器
外文名: vocoders
類型: 波形編器、聲碼器、混合編碼器

比特率: 64Kbps
評價: 幀大小等
又稱: 編碼解器

語音編碼器簡介

在IP語音技術（VOIP）中常用的編碼解碼器，它們常被稱為編碼解器、語音編碼器或者簡稱為編碼器。

語音編碼器分類

語音編碼器分為三種類形：（a）波形編器；（b）聲碼器；（c）混合編碼器。

波形編碼器會盡可能構出包括背景噪單在內的模擬波形。由於波形編碼器作用於所有輸入信號，因此會產生高質量的樣值。然而，波形編碼器工作在高比特率。例如：ITU-G.711規範（PCM）用的比特率為64Kbps。聲碼器（vocoder）不會再生原始波形。這組編碼器會提取一組參數，這組參數被送到接收端，用來導出語音產生模形。線性預測編碼（LPC）用來獲取一時變數字濾波器的參數。這個濾波器用來模擬説話人的聲道輸出[WEST96]。在電話系統中使用聲碼器，語音質量不夠好。在VOIP中常用的語音編碼器是混合編碼器，它融入了波形編碼器和聲器的長處，它的另一特點是它工作在非常低的比特率（4-6Kbps）。混合編碼器採用合成分析（AbS）。

語音編碼器線性預測合成分析

最常用的比特率在4.8kbps~16 kbps之間的語音編碼器是基於模型編碼器的，這些編碼器都是線性預測合成分析（LPAS）方法。為了隨着時間的變化模擬語音信號，線性預測語音產生模型必須用適當的信號來激勵。每隔一段固定時間（如每隔20ms），語音模型參數和激勵參數都必須做一次估計和更新，並用來控制語音模型。

語音編碼器壓縮質量

語音編碼器有損編解碼

在軟件界有許多相對更加流行的編解碼器是有損的，意味着它們壓縮過程犧牲了一定的質量。通常這種壓縮實際上同未被壓縮的聲音或圖像沒區別。更小的數據集緩解了相對高昂的存儲器。較低的數據率也降低了花銷並在數據傳輸過程中提升了品質。

語音編碼器無損編解碼

也有許多的無損壓縮，特別應用於在需要原始流中所有信息時壓縮模式下獲取數據。如果保留數據流的原始品質比削減相應的更大數據更加重要，那麼無損壓縮更佳。連續使用多種編解碼器或者編碼體系也會顯著的降低質量。不斷下降的存儲空間開銷和網絡帶寬正使得有損壓縮的需求下降^[1] 。

語音編碼器評價

評估編碼器的性能時要考慮幾個重要因素。這些因素如下提示：

幀大小：幀的大小表示語音流量的時間長度，也稱為幀時延。幀是語音信號的分立部件，且每幀是根據語音樣點更新的。本介紹的編碼器都是一次處理一幀。每幀信息各放在各語音分組中，並傳送給接收端。

處理時延：它表示在編碼器中對一幀語音做編碼算法處理所需時間。它通常簡單計入幀時延。處理時延好稱為算法時延。

前視時延：編碼器為了對當前幀的編碼提供幫助而檢查下一幀的一定長度，此長度就稱為前視時延。前視的想法是為了利用相鄰語音幀之間的密切相關性。幀長度：這個值表示經編碼處理後的字節數（不包括幀頭）。

語音比特率：當編碼器的輸入是標準脈衝編碼調製的語音碼流（比特率為64 kbit/s）時，編解碼器的輸出速率。

參考資料

1. 黃東霖楊淑京盧學軍．電信新技術培訓系列教材會議電視：人民郵電出版社，1995 23-25

語音編碼器的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：9次歷史版本
最近更新：来自央广网报道（2022-12-19）

1 簡介
2 分類
3 線性預測合成分析
4 壓縮質量: 4.1 有損編解碼; 4.2 無損編解碼
5 評價