梅爾刻度(又稱Mel尺度,英語:Mel scale)是一種基於頻率定義的非線性刻度單位,表示人耳對音高(pitch)等距變化的感官,由Stevens英語Stanley Smith StevensVolkman英語John Volkman 和Newman於1937年命名。[1]

梅爾與赫茲的對應圖
A440 Play. 440 Hz = 549.64 mels

梅爾刻度與線性的頻率刻度赫茲(Hz)之間可以進行近似的數學換算。一個常用的將赫茲轉換為梅爾的公式是:[2]

梅爾刻度將1000Hz,且高於人耳聽閾值40分貝的聲音信號,定為1000mel的參考點。在頻率500Hz以上時,隨着頻率的增加,人耳每感覺到等量的音高變化,所需要的頻率變化愈來愈大。這導致在赫茲刻度500Hz往上的四個八度(一個八度即為兩倍的頻率),只對應梅爾刻度上的兩個八度Mel的名字來源於單詞melody,表示這個刻度是基於音高比較而被創造的。

歷史和其他公式

編輯

歷史上,存在過各種各樣的轉換公式。[3] 在O'Shaugnessy的書中的常用公式選用不同的對數底可以有不同的表達式:

 

對應的逆變換公式是:

 

自從Steinberg於1937年出版的基於最小可覺差音高的刻度曲線和表格[4] 後,還有許多其他曲線通過不同的實驗方法和分析途徑被提出,如Fletcher和Munson在1937年[5] ,Fletcher在1938年[6] ,Steven於1937年[1] 以及 Stevens 和 Volkmann於1940年[7] 分別給出的曲線。

在1949年,Koenig發表了一個基於獨立的線性部分和對數部分的近似值,取1000Hz作為兩個部分的分界點。[8]

Gunnar Fant於1949年發表了當前流行的線性\對數公式,但是有1000Hz的截止頻率(corner frequency)。[9] Fant於1968年發表了該公式的另一種與對數的底數的選擇無關的形式:[10][11]

 

1976年,Makhoul與Cosell發表了現在流行的版本,截止頻率取為700Hz。[12] Ganchev等人指出:"相比於Fant等人的1000Hz的公式,700Hz的公式能夠在1000Hz以下更近似於Mel刻度,代價是超過1000Hz時誤差更大。"[13] 但是當頻率超過7kHz時,700Hz的版本表現的更好。

這些公式的數據由Beranek於1949年基於Stevens 和 Volkman的曲線被製作成表格:[14]

Beranek 等制表(1949),數據來源於Stevens 和 Volkman(1940)
Hz 20 160 394 670 1000 1420 1900 2450 3120 4000 5100 6600 9000 14000
mel 0 250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000 3250

具有625Hz截斷頻率的公式由Lindsay和Norman於1977年在《Human information processing: An introduction to psychology》中提出,[15] 但在該書1972年第一版中該公式沒有出現:

 

大多數的公式能夠保證1000 mel對應1000Hz。截斷頻率(break frequency),如700Hz、1000Hz或625Hz,是這些公式中唯一的自由參數。一些非MEL聽覺頻率尺度(auditory-frequency-scale)公式使用了相同的形式,但截斷頻率低得多,不一定能保障1000mel對應1000Hz,例如1990年Glasberg與Moore提出的ERB-rate刻度使用的是228.8Hz[16] ,1990年Greenwood的「cochlear frequency–place map」則使用165.3Hz作為截斷頻率。[17]

Umesh等人對其他形式的梅爾刻度進行了研究。根據從這些曲線上計算的數據,他們指出,傳統的含有對數區域和線性區域的公式,以及其他形式的公式,都不符合Stevens和Volkman的曲線:[18]

Umesh 等制表(1999),數據來源於Stevens 和 Volkman(1940)
Hz 40 161 200 404 693 867 1000 2022 3000 3393 4109 5526 6500 7743 12000
mel 43 257 300 514 771 928 1000 1542 2000 2142 2314 2600 2771 2914 3228

參考文獻

編輯
  1. ^ 1.0 1.1 Stevens, Stanley Smith; Volkman; John; & Newman, Edwin B. A scale for the measurement of the psychological magnitude pitch. Journal of the Acoustical Society of America. 1937, 8 (3): 185–190. (原始內容存檔於2013-04-14). 
  2. ^ Douglas O'Shaughnessy. Speech communication: human and machine. Addison-Wesley. 1987: 150 [2013-04-26]. ISBN 978-0-201-16520-3. (原始內容存檔於2015-03-19). 
  3. ^ W. Dixon Ward. Musical Perception. Jerry V. Tobias (編). Foundations of Modern Auditory Theory 1. Academic Press. 1970: 412. no one claims yet to have determined 'the' mel scale. 
  4. ^ John C. Steinberg. Positions of stimulation in the cochlea by pure tones. Journal of the Acoustical Society of America. 1937, 8 (3): 176–180. 
  5. ^ Harvey Fletcher and W. A. Munson. Relation Between Loudness and Masking. Journal of the Acoustical Society of America. 1937, 9: 1–10. 
  6. ^ Harvey Fletcher. Loudness, Masking and Their Relation to the Hearing Process and the Problem of Noise Measurement. Journal of the Acoustical Society of America. 1938, 9 (4): 275–293. 
  7. ^ Stevens, S., and Volkmann, J. The Relation of Pitch to Frequency: A Revised Scale. American Journal of Psychology. 1940, 53 (3): 329–353. 
  8. ^ W. Koenig. A new frequency scale for acoustic measurements. Bell Telephone Laboratory Record. 1949, 27: 299–301. 
  9. ^ Gunnar Fant (1949) "Analys av de svenska konsonantljuden : talets allmänna svängningsstruktur", LM Ericsson protokoll H/P 1064
  10. ^ Fant, Gunnar. (1968). Analysis and synthesis of speech processes. In B. Malmberg (Ed.), Manual of phonetics (pp. 173-177). Amsterdam: North-Holland.
  11. ^ Jonathan Harrington and Steve Cassidy. Techniques in speech acoustics. Springer. 1999: 18 [2013-04-26]. ISBN 978-0-7923-5731-5. (原始內容存檔於2015-03-19). 
  12. ^ John Makhoul and Lynn Cosell, LPCW: An LPC vocoder with linear predictive spectral warping, ICASSP 1976 1 (IEEE), 1976, 1: 466–469 [2013-04-26], (原始內容存檔於2013-07-31) 
  13. ^ T. Ganchev, N. Fakotakis, and G. Kokkinakis, Comparative evaluation of various MFCC implementations on the speaker verification task,, Proceedings of the SPECOM-2005, 2005: 191–194 [2013-04-26], (原始內容存檔於2012-10-15) 
  14. ^ Beranek, Leo L. (1949). Acoustic measurements. New York: McGraw-Hill.
  15. ^ Lindsay, Peter H.; & Norman, Donald A. (1977). Human information processing: An introduction to psychology (2nd ed.). New York: Academic Press.
  16. ^ B.C.J. Moore and B.R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns" Journal of the Acoustical Society of America 74: 750-753, 1983.
  17. ^ Greenwood, D. D. (1990). A cochlear frequency–position function for several species—29 years later. The Journal of the Acoustical Society of America, 87, 2592–2605.
  18. ^ Umesh, S. and Cohen, L. and Nelson, D., Fitting the mel scale, Proc. ICASSP 1999 (IEEE), 1999: 217–220, ISBN 0-7803-5041-3 

外部連結

編輯

參見

編輯