语音合成
語音合成是將人類語音用人工的方式所產生。若是將電腦系統用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬體所實現。文字轉語音(Text-To-Speech,TTS)系統則是將一般語言的文字轉換為語音,其他的系統可以描繪語言符號的表示方式,就像音標轉換至語音一樣[1]。
而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來。系統則因為儲存的語音單元大小不同而有所差異,若是要儲存phone以及diphone的話,系統必須提供大量的儲存空間,但是在語意上或許會不清楚。而用在特定的使用領域上,儲存整字或整句的方式可以達到高品質的語音輸出。另外,包含了聲道模型以及其他的人類聲音特徵參數的合成器則可以創造出完整的合成聲音輸出[2]。
一個語音合成器的品質通常是決定於人聲的相似度以及語意是否能被了解。一個清晰的文字轉語音程式應該提供人類在視覺受到傷害或是得到失讀症時,能夠聽到並且在個人電腦上完成工作。從80年代早期開始,許多的電腦作業系統已經包含了語音合成器了。
文字處理的概觀 编辑
歷史 编辑
早在17世紀就有法國人研發機械式的說話裝置。[來源請求]直到19世紀,貝爾實驗室對於電子語音合成技術的研究,才開啟近代語音合成技術的發展。貝爾實驗室在1939年製作出第一個電子語音合成器VODER[3],是一種利用共振峰原理所製作的合成器。 1960年,瑞典語言學家G. Fant則提出利用線性預測編碼技術(LPC)來作為語音合成分析技術,並推動了日後的發展。後來1980年代Moulines E和Charpentier F提出新的語音合成演算法PSOLA,此技術可以合成比較自然的語音。
合成器技術 编辑
串接合成 编辑
單位選擇合成 编辑
這通常是使用字詞預錄的方式,將各字詞的發音預先錄製好,經處理後存放在資料庫中。使用時再將預發音的字句斷成字詞,再把發音的資料自資料庫中取出,交由DSP去處理發音的合成。
Diphone合成 编辑
Domain-specific合成 编辑
共振峰合成 编辑
發音合成 编辑
HMM基礎合成 编辑
正弦波合成 编辑
深度學習合成 编辑
深度學習語音合成使用深度神經網絡(DNN)從文本(文本到語音)或頻譜(聲碼器)產生人工語音。深度神經網絡使用大量錄製的語音進行訓練,如果是文本到語音系統,則使用和語音相對的文本。
基於DNN的語音合成器正在接近人聲的自然度。該方法的缺點的例子是當數據不充分時強健性較低,缺乏可控性,自動回歸模型的性能低。一些局限性(如缺乏可控性)可以通過未來的研究得到解決。
目前以 Tacotron2 (https://pytorch.org/hub/nvidia_deeplearningexamples_tacotron2/ (页面存档备份,存于互联网档案馆)) + Waveglow (https://arxiv.org/abs/1811.00002 (页面存档备份,存于互联网档案馆)) 只需要數十個小時的錄音語料加以訓練即可合成出品質非常高的語音。但是對於聲調語言 (如中文),因為有不同程度的變調需求,有時合成的語音會出現變調錯誤的情況。
相关比赛 编辑
含有語音合成器的軟體 编辑
- NVDA(开源多国语言螢幕報讀軟體)
- 台灣工研院資通所語音團隊開發出的mTTS
- JAWS(商業付費螢幕報讀軟體)
- 內建於蘋果電腦相關產品的VoiceOver Utility
- Android 1.6版加入支援語音合成的功能。[7]
- 微軟在1995年開始,開發了一套Microsoft Speech API,微軟的一些作業系統或軟體有提供支援語音功能。
- VOCALOID 及 VOICEROID,前者偏重歌唱而后者偏重 TTS。
- 盛大遊戲在2012年初,發佈了Android語音合成平臺聼聼中心,支援本地中英文合成及變聲等服務。
- 台語語音筆記本[8]為台灣話的語音輸出 (Taiwanese Text-to-speech) 軟體。系統使用台語聲調群剖析器 (Taiwanese tone group parser)[9]、語音引擎 (Speech engine) 及語音合成器 (Speech synthesizer)直接安裝於個人電腦獨立運作,不需連結 MS Speech SDK或 IBM TTS Engine 。使用者圖行形介面包含可用台語羅馬字或中文輸入、有聲辭典同步顯示、有聲讀本製作、外部應用程式/網路瀏覽器語音輸出、台語調符轉換及使用中英文語詞搜尋等功能 。
語音合成標記語言 编辑
参见 编辑
参考資料 编辑
- ^ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis. From Text to Speech: The MITalk system . Cambridge University Press. 1987. ISBN 978-0-521-30641-6.
- ^ Rubin, P.; Baer, T.; Mermelstein, P. An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America. 1981, 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.
- ^ 柳春、于洪志(2008年):《現代教育技術》,第26期第64頁,北京:清華大學電教中心。
- ^ 存档副本. [2020-05-28]. (原始内容存档于2022-07-02).
- ^ 存档副本. [2020-05-28]. (原始内容存档于2020-04-23).
- ^ 存档副本. [2020-05-28]. (原始内容存档于2020-02-19).
- ^ Jean-Michel Trivi. An introduction to Text-To-Speech in Android. Android-developers.blogspot.com. 2009-09-23 [2010-02-17]. (原始内容存档于2011-07-08).
- ^ 田村志津枝 (页面存档备份,存于互联网档案馆)(2010)。初めて台湾語をパソコンに喋らせた男―母語を蘇らせる物語。 東京:現代書館。[Tamura, S.(2010).Hajimete Taiwango o pasokon ni shaberaseta otoko: bogo o yomigaeraseru monogatari.Tokyo, Japan: Gendai Shokan.]
- ^ Chang, Y. C. (2017). 以知識表徵方法建構台語聲調群剖析器 (A Knowledge Representation Method to Implement A Taiwanese Tone Group Parser)[In Chinese]. International Journal of Computational Linguistics & Chinese Language Processing; 22:2 2017.12[民106.12]; 頁73-86
外部連結 编辑
维基共享资源中相关的多媒体资源:语音合成 |