语音合成

語音合成是將人類語音用人工的方式所產生。若是將電腦系統用在語音合成上，則稱為語音合成器，而語音合成器可以用軟/硬體所實現。文字轉語音（Text-To-Speech，TTS）系統則是將一般語言的文字轉換為語音，其他的系統可以描繪語言符號的表示方式，就像音標轉換至語音一樣^[1]。

而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來。系統則因為儲存的語音單元大小不同而有所差異，若是要儲存phone以及diphone的話，系統必須提供大量的儲存空間，但是在語意上或許會不清楚。而用在特定的使用領域上，儲存整字或整句的方式可以達到高品質的語音輸出。另外，包含了聲道模型以及其他的人類聲音特徵參數的合成器則可以創造出完整的合成聲音輸出^[2]。

一個語音合成器的品質通常是決定於人聲的相似度以及語意是否能被了解。一個清晰的文字轉語音程式應該提供人類在視覺受到傷害或是得到失讀症時，能夠聽到並且在個人電腦上完成工作。從80年代早期開始，許多的電腦作業系統已經包含了語音合成器了。

文字處理的概觀编辑

歷史编辑

早在17世紀就有法國人研發機械式的說話裝置。^{[來源請求]}直到19世紀，貝爾實驗室對於電子語音合成技術的研究，才開啟近代語音合成技術的發展。貝爾實驗室在1939年製作出第一個電子語音合成器VODER^[3]，是一種利用共振峰原理所製作的合成器。 1960年，瑞典語言學家G. Fant則提出利用線性預測編碼技術（LPC）來作為語音合成分析技術，並推動了日後的發展。後來1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA，此技術可以合成比較自然的語音。

合成器技術编辑

串接合成编辑

單位選擇合成编辑

這通常是使用字詞預錄的方式，將各字詞的發音預先錄製好，經處理後存放在資料庫中。使用時再將預發音的字句斷成字詞，再把發音的資料自資料庫中取出，交由DSP去處理發音的合成。

Diphone合成编辑

Domain-specific合成编辑

共振峰合成编辑

發音合成编辑

HMM基礎合成编辑

正弦波合成编辑

深度學習合成编辑

深度學習語音合成使用深度神經網絡（DNN）從文本（文本到語音）或頻譜（聲碼器）產生人工語音。深度神經網絡使用大量錄製的語音進行訓練，如果是文本到語音系統，則使用和語音相對的文本。

基於DNN的語音合成器正在接近人聲的自然度。該方法的缺點的例子是當數據不充分時強健性較低，缺乏可控性，自動回歸模型的性能低。一些局限性（如缺乏可控性）可以通過未來的研究得到解決。

含有語音合成器的軟體编辑

NVDA（开源多国语言螢幕報讀軟體）
台灣工研院資通所語音團隊開發出的mTTS
JAWS（商業付費螢幕報讀軟體）
內建於蘋果電腦相關產品的VoiceOver Utility
Android 1.6版加入支援語音合成的功能。^[7]
微軟在1995年開始，開發了一套Microsoft Speech API（英语：Microsoft Speech API），微軟的一些作業系統或軟體有提供支援語音功能。
VOCALOID 及 VOICEROID，前者偏重歌唱而后者偏重 TTS。

語音合成標記語言编辑

参见编辑

参考資料编辑

^ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis. From Text to Speech: The MITalk system . Cambridge University Press. 1987. ISBN 978-0-521-30641-6.
^ Rubin, P.; Baer, T.; Mermelstein, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.
^ 柳春、于洪志（2008年）：《現代教育技術》，第26期第64頁，北京：清華大學電教中心。
^ 存档副本. [2020-05-28]. （原始内容存档于2022-07-02）.
^ 存档副本. [2020-05-28]. （原始内容存档于2020-04-23）.
^ 存档副本. [2020-05-28]. （原始内容存档于2020-02-19）.
^ Jean-Michel Trivi. An introduction to Text-To-Speech in Android. Android-developers.blogspot.com. 2009-09-23 [2010-02-17]. （原始内容存档于2011-07-08）.

外部連結编辑

[1] Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis. From Text to Speech: The MITalk system . Cambridge University Press. 1987. ISBN 978-0-521-30641-6.

[2] Rubin, P.; Baer, T.; Mermelstein, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.

[3] 柳春、于洪志（2008年）：《現代教育技術》，第26期第64頁，北京：清華大學電教中心。

[4] 存档副本. [2020-05-28]. （原始内容存档于2022-07-02）.

[5] 存档副本. [2020-05-28]. （原始内容存档于2020-04-23）.

[6] 存档副本. [2020-05-28]. （原始内容存档于2020-02-19）.

[7] Jean-Michel Trivi. An introduction to Text-To-Speech in Android. Android-developers.blogspot.com. 2009-09-23 [2010-02-17]. （原始内容存档于2011-07-08）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

语音合成

目录

文字處理的概觀编辑

歷史编辑

合成器技術编辑

串接合成编辑

單位選擇合成编辑

Diphone合成编辑

Domain-specific合成编辑

共振峰合成编辑

發音合成编辑

HMM基礎合成编辑

正弦波合成编辑

深度學習合成编辑

相关比赛编辑

含有語音合成器的軟體编辑

語音合成標記語言编辑

参见编辑

参考資料编辑

外部連結编辑

语音合成

文字處理的概觀 编辑

歷史 编辑

合成器技術 编辑

串接合成 编辑

單位選擇合成 编辑

Diphone合成 编辑

Domain-specific合成 编辑

共振峰合成 编辑

發音合成 编辑

HMM基礎合成 编辑

正弦波合成 编辑

深度學習合成 编辑

相关比赛 编辑

含有語音合成器的軟體 编辑

語音合成標記語言 编辑

参见 编辑

参考資料 编辑

外部連結 编辑

文字處理的概觀编辑

歷史编辑

合成器技術编辑

串接合成编辑

單位選擇合成编辑

Diphone合成编辑

Domain-specific合成编辑

共振峰合成编辑

發音合成编辑

HMM基礎合成编辑

正弦波合成编辑

深度學習合成编辑

相关比赛编辑

含有語音合成器的軟體编辑

語音合成標記語言编辑

参见编辑

参考資料编辑

外部連結编辑