音频处理中的尺度--Bark尺度与Mel尺度

  由于人耳对声音的感知(如:频率、音调)是非线性的,为了对声音的感知进行度量,产生了一系列的尺度(如:十二平均律),这里重点说下Bark尺度与Mel尺度。刚开始的时候,我自己也没弄明白这两个尺度的区别。后来才逐渐的明白他们的思考出发点,这里简单分享出来。

 

  Bark(巴克)频率尺度是以Hz为单位,把频率映射到心理声学的24个临界频带上,第25个临界频带占据约:16K~20kHz的频率,1个临界频带的宽度等于一个Bark,简单的说,Bark尺度是把物理频率转换到心理声学的频率。Bark尺度频率的中心频率与临界带宽边界频率如下表所示:

临界频带 频率/Hz
Bark频带 中心频率 下界频率 上界频率
1 50 0 100
2 150 100 200
3 250 200 300
4 350 300 400
5 450 400 510
6 570 510 630
7 700 630 770
8 840 770 920
9 1000 920 1080
10 1170 1080 1270
11 1370 1270 1480
12 1600 1480 1720
13 1850 1720 2000
14 2150 2000 2320
15 2500 2320 2700
16 2900 2700 3150
17 3400 3150 3700
18 4000 3700 4400
19 4800 4400 5300
20 5800 5300 6400
21 7000 6400 7700
22 8500 7700 9500
23 10500 9500 12000
24 13500 12000 15500
25 18775 15500 22050

  我发现有不少式子试图对上表进行建模,用的比较多的一个式子是(Zwicker,Terhardt 1980):

[B = 13{ an ^{ - 1}}left( {frac{{0.76f}}{{1000}}} ight) + 3.5{ an ^{ - 1}}{left( {frac{f}{{7500}}} ight)^2}]

  上式中频率f代表中心频率,我把上面的式子在Matlab中代入进行计算,发现前5个Bark频带与计算出来的出入比较大,尚不知道这是什么原因。

  Mel频率尺度也是一种频率映射感知模型,它描述的是音高感知的非线性映射,函数表示如下:

[m = 1127.01048{log _e}left( {1 + frac{f}{{700}}} ight)]

  要注意的一点是,这里的频率f单位是1kHz,也就是说,1kHz是Mel频率与以赫兹为单位的真实频率之间的参考点(1kHz=1000mel),另一方面,Mel一词来源于音乐术语melody,是旋律的频率分量与与音高感知之间距离的度量。

原文地址:https://www.cnblogs.com/icoolmedia/p/bark_mel_measure.html