梅爾刻度
此條目包含過多行話或專業術語,可能需要簡化或提出進一步解釋。 (2013年4月26日) |
梅爾刻度(又稱Mel尺度,英語:Mel scale)是一種基於頻率定義的非線性刻度單位,表示人耳對音高(pitch)等距變化的感官,由Stevens、Volkman 和Newman於1937年命名。[1]
梅爾刻度與線性的頻率刻度赫茲(Hz)之間可以進行近似的數學換算。一個常用的將赫茲轉換為梅爾的公式是:[2]
梅爾刻度將1000Hz,且高於人耳聽閾值40分貝的聲音信號,定為1000mel的參考點。在頻率500Hz以上時,隨著頻率的增加,人耳每感覺到等量的音高變化,所需要的頻率變化愈來愈大。這導致在赫茲刻度500Hz往上的四個八度(一個八度即為兩倍的頻率),只對應梅爾刻度上的兩個八度。Mel的名字來源於單詞melody,表示這個刻度是基於音高比較而被創造的。
歷史和其他公式
編輯歷史上,存在過各種各樣的轉換公式。[3] 在O'Shaugnessy的書中的常用公式選用不同的對數底可以有不同的表達式:
對應的逆變換公式是:
自從Steinberg於1937年出版的基於最小可覺差音高的刻度曲線和表格[4] 後,還有許多其他曲線通過不同的實驗方法和分析途徑被提出,如Fletcher和Munson在1937年[5] ,Fletcher在1938年[6] ,Steven於1937年[1] 以及 Stevens 和 Volkmann於1940年[7] 分別給出的曲線。
在1949年,Koenig發表了一個基於獨立的線性部分和對數部分的近似值,取1000Hz作為兩個部分的分界點。[8]
Gunnar Fant於1949年發表了當前流行的線性\對數公式,但是有1000Hz的截止頻率(corner frequency)。[9] Fant於1968年發表了該公式的另一種與對數的底數的選擇無關的形式:[10][11]
1976年,Makhoul與Cosell發表了現在流行的版本,截止頻率取為700Hz。[12] Ganchev等人指出:"相比於Fant等人的1000Hz的公式,700Hz的公式能夠在1000Hz以下更近似於Mel刻度,代價是超過1000Hz時誤差更大。"[13] 但是當頻率超過7kHz時,700Hz的版本表現的更好。
這些公式的數據由Beranek於1949年基於Stevens 和 Volkman的曲線被製作成表格:[14]
Hz | 20 | 160 | 394 | 670 | 1000 | 1420 | 1900 | 2450 | 3120 | 4000 | 5100 | 6600 | 9000 | 14000 |
mel | 0 | 250 | 500 | 750 | 1000 | 1250 | 1500 | 1750 | 2000 | 2250 | 2500 | 2750 | 3000 | 3250 |
具有625Hz截斷頻率的公式由Lindsay和Norman於1977年在《Human information processing: An introduction to psychology》中提出,[15] 但在該書1972年第一版中該公式沒有出現:
大多數的公式能夠保證1000 mel對應1000Hz。截斷頻率(break frequency),如700Hz、1000Hz或625Hz,是這些公式中唯一的自由參數。一些非MEL聽覺頻率尺度(auditory-frequency-scale)公式使用了相同的形式,但截斷頻率低得多,不一定能保障1000mel對應1000Hz,例如1990年Glasberg與Moore提出的ERB-rate刻度使用的是228.8Hz[16] ,1990年Greenwood的「cochlear frequency–place map」則使用165.3Hz作為截斷頻率。[17]
Umesh等人對其他形式的梅爾刻度進行了研究。根據從這些曲線上計算的數據,他們指出,傳統的含有對數區域和線性區域的公式,以及其他形式的公式,都不符合Stevens和Volkman的曲線:[18]
Hz | 40 | 161 | 200 | 404 | 693 | 867 | 1000 | 2022 | 3000 | 3393 | 4109 | 5526 | 6500 | 7743 | 12000 |
mel | 43 | 257 | 300 | 514 | 771 | 928 | 1000 | 1542 | 2000 | 2142 | 2314 | 2600 | 2771 | 2914 | 3228 |
參考文獻
編輯- ^ 1.0 1.1 Stevens, Stanley Smith; Volkman; John; & Newman, Edwin B. A scale for the measurement of the psychological magnitude pitch. Journal of the Acoustical Society of America. 1937, 8 (3): 185–190. (原始內容存檔於2013-04-14).
- ^ Douglas O'Shaughnessy. Speech communication: human and machine. Addison-Wesley. 1987: 150 [2013-04-26]. ISBN 978-0-201-16520-3. (原始內容存檔於2015-03-19).
- ^
W. Dixon Ward. Musical Perception. Jerry V. Tobias (編). Foundations of Modern Auditory Theory 1. Academic Press. 1970: 412.
no one claims yet to have determined 'the' mel scale.
- ^ John C. Steinberg. Positions of stimulation in the cochlea by pure tones. Journal of the Acoustical Society of America. 1937, 8 (3): 176–180.
- ^ Harvey Fletcher and W. A. Munson. Relation Between Loudness and Masking. Journal of the Acoustical Society of America. 1937, 9: 1–10.
- ^ Harvey Fletcher. Loudness, Masking and Their Relation to the Hearing Process and the Problem of Noise Measurement. Journal of the Acoustical Society of America. 1938, 9 (4): 275–293.
- ^ Stevens, S., and Volkmann, J. The Relation of Pitch to Frequency: A Revised Scale. American Journal of Psychology. 1940, 53 (3): 329–353.
- ^ W. Koenig. A new frequency scale for acoustic measurements. Bell Telephone Laboratory Record. 1949, 27: 299–301.
- ^ Gunnar Fant (1949) "Analys av de svenska konsonantljuden : talets allmänna svängningsstruktur", LM Ericsson protokoll H/P 1064
- ^ Fant, Gunnar. (1968). Analysis and synthesis of speech processes. In B. Malmberg (Ed.), Manual of phonetics (pp. 173-177). Amsterdam: North-Holland.
- ^ Jonathan Harrington and Steve Cassidy. Techniques in speech acoustics. Springer. 1999: 18 [2013-04-26]. ISBN 978-0-7923-5731-5. (原始內容存檔於2015-03-19).
- ^ John Makhoul and Lynn Cosell, LPCW: An LPC vocoder with linear predictive spectral warping, ICASSP 1976 1 (IEEE), 1976, 1: 466–469 [2013-04-26], (原始內容存檔於2013-07-31)
- ^ T. Ganchev, N. Fakotakis, and G. Kokkinakis, Comparative evaluation of various MFCC implementations on the speaker verification task,, Proceedings of the SPECOM-2005, 2005: 191–194 [2013-04-26], (原始內容存檔於2012-10-15)
- ^ Beranek, Leo L. (1949). Acoustic measurements. New York: McGraw-Hill.
- ^ Lindsay, Peter H.; & Norman, Donald A. (1977). Human information processing: An introduction to psychology (2nd ed.). New York: Academic Press.
- ^ B.C.J. Moore and B.R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns" Journal of the Acoustical Society of America 74: 750-753, 1983.
- ^ Greenwood, D. D. (1990). A cochlear frequency–position function for several species—29 years later. The Journal of the Acoustical Society of America, 87, 2592–2605.
- ^ Umesh, S. and Cohen, L. and Nelson, D., Fitting the mel scale, Proc. ICASSP 1999 (IEEE), 1999: 217–220, ISBN 0-7803-5041-3
外部連結
編輯- Hz–mel, mel–Hz conversion (頁面存檔備份,存於網際網路檔案館) (uses the O'Shaughnessy equation)
- J. Acoust. Soc. Am. table of contents for Stevens et al. paper
- Handbook for Acoustic Ecology (頁面存檔備份,存於網際網路檔案館)