反饋

語音合成

語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術（又稱文語轉換技術）隸屬於語音合成，它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術。

中文名: 語音合成
外文名: Speech synthesis
別名: 文語轉換

基礎知識: 數字信號處理，語言學知識
技術: TTS技術
應用: 計算機
定義: 通過機械產生人造語音的技術

語音合成基本信息

語音合成是利用電子計算機和一些專門裝置模擬人，製造語音的技術。

語音合成專業技術

語音合成和語音識別技術是實現人機語音通信，建立一個有聽和講能力的口語系統所必需的兩項關鍵技術。使電腦具有類似於人一樣的説話能力，是當今時代信息產業的重要競爭市場。和語音識別相比，語音合成的技術相對説來要成熟一些，並已開始向產業化方向成功邁進，大規模應用指日可待。

語音合成，又稱文語轉換（Text to Speech）技術，能將任意文字信息實時轉化為標準流暢的語音朗讀出來，相當於給機器裝上了人工嘴巴。它涉及聲學、語言學、數字信號處理、計算機科學等多個學科技術，是中文信息處理領域的一項前沿技術，解決的主要問題就是如何將文字信息轉化為可聽的聲音信息，也即讓機器像人一樣開口説話。我們所説的“讓機器像人一樣開口説話”與傳統的聲音回放設備（系統）有着本質的區別。傳統的聲音回放設備（系統），如磁帶錄音機，是通過預先錄製聲音然後回放來實現“讓機器説話”的。這種方式無論是在內容、存儲、傳輸或者方便性、及時性等方面都存在很大的限制。而通過計算機語音合成則可以在任何時候將任意文本轉換成具有高自然度的語音，從而真正實現讓機器“像人一樣開口説話”。^[1]

語音合成轉換系統

文語轉換系統實際上可以看作是一個人工智能系統。為了合成出高質量的語言，除了依賴於各種規則，包括語義學規則、詞彙規則、語音學規則外，還必須對文字的內容有很好的理解，這也涉及到自然語言理解的問題。如《聲道頻域特性（頻率響應圖）》所示，顯示了一個完整的文語轉換系統示意圖。文語轉換過程是先將文字序列轉換成音韻序列，再由系統根據音韻序列生成語音波形。其中第一步涉及語言學處理，例如分詞、字音轉換等，以及一整套有效的韻律控制規則；第二步需要先進的語音合成技術，能按要求實時合成出高質量的語音流。因此一般説來，文語轉換系統都需要一套複雜的文字序列到音素序列的轉換程序，也就是説，文語轉換系統不僅要應用數字信號處理技術，而且必須有大量的語言學知識的支持。^[1]

聲道頻域特性（頻率響應圖)

語音合成TTS結構

語音合成語言處理

語音合成

在文語轉換系統中起着重要的作用，主要模擬人對自然語言的理解過程——文本規整、詞的切分、語法分析和語義分析，使計算機對輸入的文本能完全理解，並給出後兩部分所需要的各種發音提示。^[1]

語音合成韻律處理

為合成語音規劃出音段特徵，如音高、音長和音強等，使合成語音能正確表達語意，聽起來更加自然。^[1]

語音合成聲學處理

根據前兩部分處理結果的要求輸出語音，即合成語音。^[1]

語音合成歷史

語音合成技術的研究已有兩百多年的歷史，但真正具有實用意義的近代語音合成技術是隨着計算機技術和數字信號處理技術的發展而發展起來的，主要是讓計算機能夠產生高清晰度、高自然度的連續語音。在語音合成技術的發展過程中，早期的研究主要是採用參數合成方法，後來隨着計算機技術的發展又出現了波形拼接的合成方法。

語音合成參數合成

在語音合成技術的發展中，早期的研究主要是採用參數合成方法。值得提及的是Holmes的並聯共振峯合成器（1973）和Klatt的串/並聯共振峯合成器（1980），只要精心調整參數，這兩個合成器都能合成出非常自然的語音。最具代表性的文語轉換系統當數美國DEC公司的DECtalk（1987）。但是經過多年的研究與實踐表明，由於準確提取共振峯參數比較困難，雖然利用共振峯合成器可以得到許多逼真的合成語音，但是整體合成語音的音質難以達到文語轉換系統的實用要求。^[1]

語音合成波形拼接

自八十年代末期至今，語言合成技術又有了新的進展，特別是基音同步疊加（PSOLA）方法的提出（1990），使基於時域波形拼接方法合成的語音的音色和自然度大大提高。九十年代初，基於PSOLA技術的法語、德語、英語、日語等語種的文語轉換系統都已經研製成功。這些系統的自然度比以前基於LPC方法或共振峯合成器的文語合成系統的自然度要高，並且基於PSOLA方法的合成器結構簡單易於實時實現，有很大的商用前景。

語音合成

國內的漢語語音合成研究起步較晚些，但從八十年代初就基本上與國際上研究同步發展。大致也經歷了共振峯合成、LPC合成至應用PSOLA技術的過程。在國家863計劃，國家自然科學基金委，國家攻關計劃，中國科學院有關項目等支持下，聯想佳音（1995）；清華大學的TH_SPEECH (1993)；中國科技大學的KDTALK（1995）等系統。這些系統基本上都是採用基於PSOLA方法的時域波形拼接技術，其合成漢語普通話的可懂度、清晰度達到了很高的水平。然而同國外其它語種的文語轉換系統一樣，這些系統合成的句子及篇章語音機器味較濃，其自然度還不能達到用户可廣泛接受的程度，從而制約了這項技術的大規模進入市場。^[1]

語音合成合成方法

語音合成系統概念

一種語音合成系統，其包括：分割單元，其被配置成將對應於目標語音的音位串分割為多個節段，來產生第一節段序列；

選擇單元，其被配置成基於第一節段序列通過組合多個語音單元產生對應於第一節段序列的多個第一語音單元串，並從所述多個第一語音單元串中選擇一個語音單元串；和連接單元，其被配置成連接包含在所選擇語音單元串中的多個語音單元，以產生合成語音，選擇單元包括檢索單元，其被配置成反覆實施第一處理和第二處理，該第一處理基於對應於第二節段序列的最多W個（W為預定值）第二語音單元串產生對應於第三節段序列的多個第三語音單元串，所述第二節段序列作為第一節段序列中的部分序列，所述第三節段序列作為通過將節段添加給第二節段序列而獲得的部分序列，第二處理從所述多個第三語音單元串中選擇最多W個第三語音單元串，第一計算單元，其被配置成計算所述多個第三語音單元串中每個的總成本，第二計算單元，其被配置成基於涉及語音單元數據獲取速度的限制來為所述多個第三語音單元串中的每個計算對應於總成本的懲罰係數，其中懲罰係數依賴於接近所述限制的程度，和第三計算單元，其被配置成通過使用懲罰係數修正總成本來計算所述多個第三語音單元串中每個的估計值，其中檢索單元基於所述多個第三語音單元串中每個的估計值從所述多個第三語音單元串中選擇最多W個第三語音單元串。^[2]

語音合成方法比較

“未來的十年是語音技術的時代”。隨着語音技術研究的突破，其對計算機發展和社會生活的重要性日益凸現出來。語音合成技術是語音技術中十分實用的一項重要技術，它能解決人民大眾的實際需求，能夠深入到社會的各行各業中去。

語音合成技術經歷了一個逐步發展的過程，從參數合成到拼接合成，再到兩者的逐步結合，其不斷髮展的動力是人們認知水平和需求的提高。它們各有優缺點，人們在應用過程中往往將多種技術有機地結合在一起，或將一種技術的優點運用到另一種技術上，以克服另一種技術的不足。^[2]

語音合成共振峯

語音合成的理論基礎是語音生成的數學模型。該模型語音生成過程是在激勵信號的激勵下，聲波經諧振腔（聲道），由嘴或鼻輻射聲波。因此，聲道參數、聲道諧振特性一直是研究的重點。習慣上，把聲道傳輸頻率響應上的極點稱之為共振峯，而語音的共振峯頻率（極點頻率）的分佈特性決定着該語音的音色。

音色各異的語音具有不同的共振峯模式，因此，以每個共振峯頻率及其帶寬作為參數，可以構成共振峯濾波器。再用若干個這種濾波器的組合來模擬聲道的傳輸特性（頻率響應），對激勵源發出的信號進行調製，再經過輻射模型就可以得到合成語音。這就是共振峯合成技術的基本原理。基於共振峯的理論有以下三種實用模型。^[2]

語音合成級聯模型

在該模型中，聲道被認為是一組串聯的二階諧振器。該模型主要用於絕大部分元音的合成。

語音合成並聯模型

許多研究者認為，對於鼻化元音等非一般元音以及大部分輔音，上述級聯型模型不能很好地加以描述和模擬，因此，構築和產生了並聯型共振峯模型。

語音合成混合模型

在級聯型共振峯合成模型中，共振峯濾波器首尾相接；而在並聯型模型中，輸入信號先分別通過幅度調節再加到每一個共振峯濾波器上，然後將各路的輸出疊加起來。將兩者比較，對於合成聲源位於聲道末端的語音（大多數的元音），級聯型合乎語音產生的聲學理論，並且無需為每一個濾波器分設幅度調節；而對於合成聲源位於聲道中間的語音（大多數清擦音和塞音），並聯型則比較合適，但是其幅度調節很複雜。基於此種考慮，人們將兩者結合在一起，提出了混和型共振峯模型。

共振峯模型是基於對聲道的一種比較準確的模擬，因而可以合成出自然度比較高的語音，另外由於共振峯參數有着明確的物理意義，直接對應於聲道參數，因此，可以容易利用共振峯描述自然語流中的各種現象，並且總結聲學規則，最終用於共振峯合成系統。

但是，人們同時也發現該技術有明顯的弱點。首先由於它是建立在對聲道的模擬上，因此，對於聲道模型的不精確勢必會影響其合成質量。另外，實際工作表明，共振峯模型雖然描述了語音中最基本最主要的部分，但並不能表徵影響語音自然度的其他許多細微的語音成分，從而影響了合成語音的自然度。另外，共振峯合成器控制十分複雜，對於一個好的合成器來説，其控制參數往往達到幾十個，實現起來十分困難。

基於這些原因，研究者繼續尋求和發現其他新的合成技術。人們從波形的直接錄製和播放得到啓發，提出了基於波形拼接的合成技術，LPC合成技術和PSOLA合成技術是其中的代表。與共振峯合成技術不同，波形拼接合成是基於對錄製的合成基元的波形進行拼接，而不是基於對發聲過程的模擬。^[2]

語音合成合成技術

語音合成LPC

波形拼接技術的發展與語音的編、解碼技術的發展密不可分，其中LPC技術（線性預測編碼技術）的發展對波形拼接技術產生了巨大的影響。LPC合成技術本質上是一種時間波形的編碼技術，目的是為了降低時間域信號的傳輸速率。

LPC合成技術的優點是簡單直觀。其合成過程實質上只是一種簡單的解碼和拼接過程。另外，由於波形拼接技術的合成基元是語音的波形數據，保存了語音的全部信息，因而對於單個合成基元來説能夠獲得很高的自然度。

但是，由於自然語流中的語音和孤立狀況下的語音有着極大的區別，如果只是簡單地把各個孤立的語音生硬地拼接在一起，其整個語流的質量勢必是不太理想的。而LPC技術從本質上來説只是一種錄音+重放，對於合成整個連續語流LPC合成技術的效果是不理想的。因此，LPC合成技術必須和其他技術相結合，才能明顯改善LPC合成的質量。^[2]

語音合成PSOLA

20世紀80年代末提出的PSOLA合成技術（基音同步疊加技術）給波形拼接合成技術注入了新的活力。PSOLA技術着眼於對語音信號超時段特徵的控制，如基頻、時長、音強等的控制。而這些參數對於語音的韻律控制以及修改是至關重要的，因此，PSOLA技術比LPC技術具有可修改性更強的優點，可以合成出高自然度的語音。

PSOLA技術的主要特點是：在拼接語音波形片斷之前，首先根據上下文的要求，用PSOLA算法對拼接單元的韻律特徵進行調整，使合成波形既保持了原始發音的主要音段特徵，又能使拼接單元的韻律特徵符合上下文的要求，從而獲得很高的清晰度和自然度。

PSOLA技術保持了傳統波形拼接技術的優點，簡單直觀，運算量小，而且還能方便地控制語音信號的韻律參數，具有合成自然連續語流的條件，得到了廣泛的應用。

但是，PSOLA技術也有其缺點。首先，PSOLA技術是一種基音同步的語音分析/合成技術，首先需要準確的基音週期以及對其起始點的判定。基音週期或其起始點的判定誤差將會影響PSOLA技術的效果。其次，PSOLA技術是一種簡單的波形映射拼接合成，這種拼接是否能夠保持平穩過渡以及它對頻域參數有什麼影響等並沒有得到解決，因此，在合成時會產生不理想的結果。^[2]

語音合成LMA

隨着人們對語音合成的自然度和音質的要求越來越高，PSOLA算法表現出對韻律參數調整能力較弱和難以處理協同發音的缺陷，因此，人們又提出了一種基於LMA聲道模型的語音合成方法。這種方法具有傳統的參數合成可以靈活調節韻律參數的優點，同時又具有比PSOLA算法更高的合成音質。

這兩種技術各有所長，共振峯技術比較成熟，有大量的研究成果可以利用，而PSOLA技術則是比較新的技術，具有良好的發展前景。過去這兩種技術基本上是互相獨立發展的，^[2]

語音合成中文語音

作為一種有調語言，漢語韻律特徵非常複雜。古漢語的平仄以及現代漢語拼音，對於同樣一個音節，出現在不同的環境下，其韻律參數都是各不相同的。用有限的存儲單元存儲基本漢語基本語音單元，進而從有限的存儲單元中合成出無限詞彙，組成連續漢語語句。必須在一定的韻律規則下對音庫單元的韻律參數進行調整，以得到符合當前語言環境的語音庫單元。語音合成器用來完成這種功能。

中文語音合成系統在DSP下實現時，除清晰度，能懂度和自然度外，還要求合成算法具有較低的運算複雜度，儘量小的語音庫以減少對有限存儲空間的佔用程度。^[2]

參考資料

1. 張斌,全昌勤,任福繼. 語音合成方法和發展綜述[J]. 小型微型計算機系統,2016,(01):186-192.
2. Jean-Michel Trivi. An introduction to Text-To-Speech in Android. Android-developers.blogspot.com. 2009-09-23

語音合成的概述圖（2張）

詞條統計

瀏覽次數：次
編輯次數：40次歷史版本
最近更新：夏天的漫画（2023-02-01）

語音合成

目錄

語音合成基本信息

語音合成專業技術

語音合成轉換系統

語音合成TTS結構

語音合成語言處理

語音合成韻律處理

語音合成聲學處理

語音合成歷史

語音合成參數合成

語音合成波形拼接

語音合成合成方法

語音合成系統概念

語音合成方法比較

語音合成共振峯

語音合成級聯模型

語音合成並聯模型

語音合成混合模型

語音合成合成技術

語音合成LPC

語音合成PSOLA

語音合成LMA

語音合成中文語音