HRTF[引用] ---引自【http://www.eefocus.com/book/08-11/415524011132.html】

MIT关于HRTF的研究方面的数据：

http://sound.media.mit.edu/resources/KEMAR.html

心理声学的基本要素是到达人耳的声音的频率、强度和谱结构。以下将进一步讨论基于心理声学的声源定位、距离感知及包围感等。

2.2.1 人耳对声源的定位

在自然听音中，人的听觉系统对声源的定位取决于多个因素——双耳接收到的信号差异用来决定声源的水平位置，由外耳对高频信号的反射所引起的耳郭效应决定声源的垂直位置，而人耳的某些心理声学特性对于声源的定位也起到很大的作用。

2.2.1.1 双耳效应

在自然听音环境中，双耳信号之间的差异对于声源的定位是非常重要的。该因素可以在直达声场的听音环境中得到最好解释，如图2-6所示。

图2-6 声源S与镜像声源S′引入最大程度相似的双耳因素

声源位于水平面上，水平方位角为θ，与人头中心的距离为r，到达左右耳的距离分别为SL和SR。由于SL>SR，声音首先到达右耳，从而在到达双耳的时间先后上形成时间差。这种时间差被定义为双耳时间差（interaural time difference，ITD），它与声源的水平方位角θ有关。当θ = 0°时， = 0；当θ = ±90°时，达到最大值，对一般人头来说，为0.6～0.7ms 的数量级。

在低中频（f <1.5kHz）情况下，双耳时间差是定位的主要因素，这时对固定频率的声音，双耳时间差与双耳相位差是相对应的。然而对于更高的频率，虽然双耳时间差的概念依然正确，但双耳相位差的概念将变得模糊不清。以正弦声音为例来进行解释，设双耳时间差的最大值为Δt_max，则角频率为ω的正弦声音在左、右两耳产生的相位差为ΔΦ = ωΔt_max。可以看出，当ω较小时，声音频率较低，波长较长，由时间差所造成的相位差有确定的意义，双耳可以根据它来判定声源的方位；当ω较大时，即声音频率较高、波长较短时，由时间差所形成的相位差数值将较大，甚至会超过180°，使人不能判断是超前还是滞后，因而失去了作为声源定位因素的意义。所以双耳相位差只对低频声的方位判断起主要作用，而双耳时间差（严格说是群延时）则可作为1.5～4.0kHz的一个定位因素。

另外一方面，人头对入射声波起到了阻碍作用，导致了两耳信号间的声级差（interaural intensity difference，IID）。声级差除与入射声波的水平方位角有关外，还与入射声波的频率有关。在低频时，声音波长大于人头尺寸，声音可以绕射过人头而使双耳信号没有明显的声级差。随着频率的增加，波长越来越短，头部对声波产生的阻碍越来越大，使得双耳信号间的声级差越来越明显——这就是我们常说的人头遮蔽效应。对于1.5～4.0kHz的频率范围来说，声级差和时间差是声源定位的共同因素，而当f > 5.0kHz时，双耳声级差是定位的主要因素，与时间差形成互补。总的来说，双耳时间差和声级差涵盖了整个声音频率范围。

但是如果只考虑双耳时间差和声级差两个因素，还不足以完全解释定位问题，其中最典型的问题就是前后镜像声源的定位。假设人头是一个球体，不存在外耳，如图2-7所示，水平方位角为θ的声源和水平方位角为180°.θ的镜像声源在人耳处会产生相同的IID和ITD。对于实际的人头来说，虽然IID和ITD不会完全相同，但是它们会在很大程度上相似。当只考虑双耳时间差和声级差时，就会产生前后镜像声源的混淆，其实这只是空间锥形区域声像混淆（cones of confusion）的一种特例。为了解决这个问题，就要依赖于其他的因素进行声源定位了。

图2-7 空间锥形区域声像混淆

2.2.1.2 耳郭效应

在听觉系统中用于对声源进行垂直定位的因素通常被认为是“单耳信号”。耳郭具有不规则的形状，形成一个共振腔。当声波到达耳郭时，一部分声波直接进入耳道，另一部分则经过耳郭反射后才进入耳道。由于声音到达的方向不同，反射声和直达声之间强度比不仅发生变化，而且反射声与直达声之间在不同频率上产生不同的时间差和相位差，使反射声与直达声在鼓膜处形成一种与声源方向位置有关的频谱特性，听觉神经据此判断声音的空间方向。耳郭效应的本质就是改变不同空间方向声音的频谱特性，也就是说人类听觉系统功能上相当于梳状滤波器，将不同空间方向的声音进行不同的滤波。

频谱特性的改变主要是针对于高频信号，由于高频信号波长短，经耳郭折向耳道的各个反射波之间会出现同相相加、反相相减，甚至相互抵消的干涉现象，形成频谱上的峰谷，也即耳郭对高频声波起到了梳状滤波作用。

耳郭效应对声源的垂直定位起到很重要的作用。图2-8显示的是声源位于中垂面，仰角φ分别为.10°、0°和10°在人头模型上测得的耳郭响应曲线。由图可以看出，在高频处响应曲线变化比较大，因此可以对声源进行定位。例如对位于前后镜像的声源进行定位时，虽然位于(r , θ , φ)的声源和位于(r , 180°.θ , .φ)的镜像声源会在人耳处产生极相似的ITD和IID，但是可以通过耳郭效应对声源作精确定位。

图2-8 人头模型测量的耳郭效应

耳郭效应进行声音定位，主要是将每次接收到的声音与过去存储在大脑里的重复声排列或梳状波动记忆进行比较，然后判断定位。因每个人耳郭尺寸不同，所以每个人在大脑中存储的记忆是不同的，这一点应引起注意。

2.2.1.3 人头转动因素

如图2-9所示在低频或较差的听音环境中，当双耳效应和耳郭效应对声源的定位不能给出明确的信息时，听音者会转动头部来消除不确定性。最经常使用这种方法的情况是出现空间锥形区域声像混淆现象时，因为这样会造成不确定的双耳效应。

图2-9 头部转动避免声源位置前后混淆

2.2.1.4 优先效应

声音的定位除了以上因素外还有其他因素。在混响环境中，优先效应起到重要作用。它是心理声学的特性之一。所谓的优先效应是指当同一声源的直达声和反射声被人耳听到时，听音者会将声源定位在直达声传来的方向上，因为直达声会首先到达人耳处，即使反射声的强度比直达声高达10dB。因此，声源可以在空间中进行正确的定位，而与来自不同方向的反射声无关。但是优先效应不会完全消除反射声的影响。反射声可以增加声音的空间感和响度感。

当优先效应用在混响环境中识别语音时，就产生了哈斯效应（Haas effect）。哈斯观察到，只要早期反射声到达人耳足够早就不会影响语音的识别，相反，由于增加了语音的强度，还会有利于语音的识别。而且哈斯发现，相对于音乐来说，语音对反射延时时间和混响的变化更为敏感。对于语言声来说，只有滞后直达声50ms以上的延迟声才会对语音的识别造成影响。所以50ms被称为哈斯效应的最大延时量。在哈斯的平衡实验证明，当延时为10～20ms时，先导声会对滞后声有最大程度的抑制。

2.2.1.5 头部相关传输函数

如果将声源到达耳膜之前的传输路径看成一个滤波器的话，这一滤波器的频率响应就包含了传输路径和耳郭对声音的共同响应，这一频率响应就是所谓的“头部相关传输函数”（head-related transfer function，HRTF）。从心理声学的角度来看，HRTF是综合了ITD、IID和频谱结构特性的声源定位模型。

人耳的听觉特性决定了听觉响应实际上是基于频谱的响应，而HRTF中包含了人体结构对声音信号的频率响应、人体的各个部位对不同频率的信号有着不同的响应。这些响应有些是有方向性的，如躯干、头、肩部和耳郭、耳腔的反射以及头部衍射，有些是无方向性的，如耳腔的回响和耳道、耳膜的阻抗。HRTF的定义为

其中，P_L、P_R是声源在听音者左、右耳产生的复数声压；P₀是人头不存在时头中心处的复数声压。HRTF是声源的水平方位角θ、仰角φ、声源至人头中心的距离r和声波的角频率ω的函数，且与人头的大小a有关。

在时域里，头部相关传输函数H_L、H_R对应于头相关脉冲响应（head-related impulse response，HRIR）h_l、h_r，也称双耳脉冲响应，并与H_L、H_R互为傅立叶变换对：

及

HRTF的谱特征反映在它们的谷点频率与峰点频率上，某些谷点频率与峰点频率随着声源方向的改变而改变。图2-10～图2-12是美国威斯康星州（Winconsin）大学采用真实听音者测量的不同方向上的HRTF幅频特性，从图中我们可以得出下面一些规律。

① HRTF是一个不对称的函数，无论在左右、前后还是上下方向上其谱结构都是有差别的。声源同侧的HRTF函数的强度明显大于声源背面的HRTF函数的强度，而且同侧的HRTF

图2-10 上下HRTF的对比

图2-11 左右HRTF的对比

图2-12 前后HRTF的对比

函数的波形也较声源背面的波形复杂，起伏变化剧烈，在高频部分能量也更大一些。这是由于人体对声音信号响应具有方向性所造成的。这些都是HRTF包含的重要方位信息。HRTF中包含的这种有方向性的频率响应，使得它成为一个在各个方向上都不对称的函数。因此，通过HRTF定位可以解决ITD、IID的“空间锥形区域声像混淆”问题。

② 每幅图中都含有对3个不同听音者测试的HRTF函数，由此可以看出HRTF是由被测者特定的响应特性决定的，不同的人有不同的HRTF。由于HRTF包含了个体结构对声音信号的响应，每个人身体结构不一样，对信号的频率响应也千差万别，因此每个人的HRTF都是不同的。研究表明，当听音者头部尺寸与测量HRTF 函数使用的头部模型不相等时，前方范围内的声像位置畸变较小，但侧向的声像位置畸变较大。因而采用HRTF 进行声源定位的时候听音者头部尺寸的不同是侧向声像位置畸变的重要原因。

③ HRTF是声源位置尤其是声源方向的函数，由定义的公式上也可以看出这一点，而距离对于HRTF的谱结构也是有影响的。当声波在媒体中传播时，媒体对不同频率声音的衰减是不一样的。一般而言，高频声音受到的吸收衰减总是相对大一些，所以远距离传来的声音中高频成分能量较低，相应HRTF的高频部分幅度也要降低一些。

④ 在HRTF的谱结构中，相位特征也是非常重要的。但是由于单边HRTF的相位信息对声源定位的作用并不是很明显，所以我们研究的一般是两耳间的差值。如果一个包含所有频率的脉冲信号从声源位置传至听音位置，则不同的频率的信号会产生不同的耳间延迟，如图2-13所示。

图2-13 HRTF的耳间相位延迟

以上分析了HRTF特点及其对听觉系统定位起到重要的作用，但是HRTF也有其局限性。对于声源距离的判断，虽然HRTF在谱结构上会随着距离的变化有所改变，但是能够提供的信息还是非常有限的，仍需要借助其他的心理声学因素来进行判断。目前HRTF函数更多的应用到虚拟环绕声系统中。

HRTF函数的获得通常有两种方法：其一是通过对假头或真实听音者的双耳信号的测量得到；其二是利用声波的散射理论计算得到。

近年来，随着数字技术和测量技术的发展，国外的一些科研单位已对HRIR进行了较精确的测量。如美国麻省理工学院媒体实验室、德国奥尔登堡（Oldenburg）大学心理声学研究所均采用仿真头测得了不同水平方位角和仰角下的一整套HRIR，而美国威斯康星州大学的研究小组则直接采用了真实听音者来测量HRIR（见图2-14）。用仿真头来进行测量，操作比较简单，由于假头装有耳郭，测得数据与真实情况比较相似。但是由于不同的人，其头部及耳郭尺寸各有不同，而假头的形状和大小并不能调整，使得假头测出的HRIR 对不同的真人适用情况不一样。采用真实听音者测量，理论上测得的数据更加可信，但因为要照顾到听音者头部活动等因素，实际操作相当困难，而且同样存在从某个听音者测得的HRIR只适用于本人，不一定适用于其他人的问题。

图2-14 美国威斯康星州大学对HRIR的测量

经心理声学对比实验发现，麻省理工学院媒体实验室测得的HRIR数据比较适合中国人的生理构造，声像定位实验与实际情况吻合较好，而且所有数据已全部在因特网上公开。下面简单介绍一下他们的测量方法，其测量系统图如图2-15所示。测量设备为一台Macintosh Quadra计算机，安装有一块Audiomedia ⅡDSP声卡，可以对立体声信号进行A/D、D/A转换，量化位数为16bit，采样频率44.1kHz。声卡的一个输出通路经放大后驱动Realistic Optimus Pro7扬声器系统。仿真头KEMAR如图2-16所示，其上装有左（DB-061）、右（DB-065）两个不同的耳郭，耳郭内置传声器（Etymotic ER-11），拾取的信号经内置的前置放大器放大后送入声卡的立体声输入。

测量是在消音室中进行的。假头垂直安放在一个机动转盘上，可以精确旋转到任意水平方位角。扬声器的高度可以精确调节，从而改变假头对声源的仰角。在.40°～90°仰角范围内，研究人员可一次从0°～360°的水平方位角范围内对总共710个测量位置的双耳脉冲响应进行采样。对于每个测量位置，首先记录了16383个采样点。在剔除了因系统延迟和环境反射声而造成的冗余数据后，每个测量位置保留了512个采样点，以16bit量化进行记录，保存为Motorola格式的原始采样数据文件。

探测话筒的摆放位置成为获得HRTF 数据的关键问题。将话筒摆放在耳膜处无疑是最佳点，但是在实际测量中存在一定难度（尤其是在以真人作为测量对象时），因此人们开始研究是否在外耳道中存在某些点可取代耳膜的位置，且使结果不受影响。Hammersh.i以及Middlebrooks等人经过大量实验后得出结论：外耳道入口处以及以内的任何一点均可选择作为话筒的摆放点，并且堵塞的外耳道入口处的声音信息不仅包含所有的空间信息，而且含有最少的个人信息。

图2-15 麻省理工学院测量系统图

图2-16 仿真头KEMAR

若用半径与人头相似的钢球模型来类比人头，根据理论声学中的声波散射理论，可计算出近似的HRTF。为简单起见，这里只讨论水平面的情况，把人头近似成一个中心在原点、半径为a的固定不动的钢球，人的双耳位于钢球上相对的左右两点。对于水平面内θ方向的声源，可以作为远场平面波近似。这样，水平方位角为θ的点声源在双耳处产生的复声压为

式中，P_m为m阶勒让德多项式，k为波数，P₀为常数，a为人头半径，θ为声源的水平方位角（.180°< θ≤180°，θ = 0°为正前方，θ = 90°为正左方），B_m由下式给出：

其中h_m为m阶第一类球汉开尔函数。

根据HRTF的定义式，并经过进一步的整理，可以得到计算HRTF的公式

由上可知，HRTF是θ与ka（即角频率ω）的函数。

根据上式，利用普通的计算机即可算出任意人头半径与任意方向的HRTF。但由于该公式是根据钢球模型计算出来的，与真实的人头形状有一定差别，并且忽略了肩部、

耳郭等对声波的反射，所以与真实的人头传输函数会有差异，只能算作一种中低频时的近似。

2.2.2 人耳对距离与深度的感知

距离是指人耳对某个特定声源距离远近的感知，而深度是用于描述对整个声音场景前后距离的感知。声源距离的远近受很多因素的影响。响度和直达声与混响声的声能比是最有效的两个因素。响度因素是基于这样的事实，即随着距离的增加，声源的辐射直达声声压在不断地减小。距声源分别为r1和r2的两点，彼此之间的直达声能密度比为：I1/I2 = r2² /r1²，因此若听音距离增加1倍，则人耳处的直达声能密度衰减为6dB，因此可对声源的距离进行估测。但是，如果对声音及其特性非常熟悉，会影响基于响度对距离的估测，而且响度因素仅对无混响的听音环境有效。

在混响环境中首先应引入混响半径r_r的概念，它是指直达声能与混响声能相等的位置。当距声源距离r < r_r时，以直达声为主；当距离r > r_r时，以混响声为主。图2-17显示了直达声压级L_d、混响声压级L_r和总声压级L_t随距离变化的情况。可以看出在混响半径以外，总声压级几乎恒定，而响度因素正是基于距离的增大声压衰减来形成的。因此在距离r > rr时，响度因素已经不起作用了，它仅在r < rr时有效。

图2-17 在封闭空间中L_d、L_r和L_t随距离的变化

在响度因素变得无效时，直达声能与混响声能的比值（D/R）成为估测声源距离的有效因素。这个比值可以表示为：D/R = (PD)_rms/(PR) _rms = r_r/ r，由公式可以看出D/R仅取决于房间的混响半径和距声源的距离r。而根据混响时间和混响声级的大小，可以使听音者估算出房间的大小和表面吸声能力。

虽然混响对估测声源的距离及环境的再现有很重要的作用，但对声源的水平和垂直定位起到减弱作用。这可以通过强混响环境下，人耳可以辨别早期反射声方向的现象来解释。人耳具有的优先效应仅能抑制反射声的影响，而不能消除反射声影响，这样就会对声源的定位造成干扰。此外混响使听觉系统很难正确估测低频的双耳时间差。

2.2.3 人耳对声源宽度的感知

感知声源宽度（apparent source width，ASW）是用于评价音乐厅音质的重要参数。所谓感知声源宽度是人耳所感知的声源宽度范围，如图2-18所示，它是声源发出的声音在空间传播后经双耳作用而被听音者感觉到的声源声像在空间中的形状和尺寸，又被称为听闻声源宽度或视在声源宽度，两者含义相同。多年的研究表明，早期反射声是影响ASW的重要因素。增加早期反射声能能够扩展ASW，扩展的程度取决于早期反射声的幅度和延时时间。大量在音乐厅进行的主观评价表明，人们偏爱更宽阔些的ASW，但是并没有明确给出ASW的最佳值，而对于普通的听音环境还没有得出人们也偏爱宽阔些的ASW。通常讨论的早期反射声和后期反射声都是相对于直达声而言，一般情况下，通常取直达声发出后的80ms为早期反射声和后期反射声的分界线。音质设计中常用的客观参量如早期双耳听觉互相关系数（IACCE）、侧向声能比（lateral energy fraction，LF）和声源的触发阶段特性等均与早期反射声密切相关。

图2-18 感知声源宽度

双耳听觉互相关系数IACC（inter-aural correlation coefficient）是对某一瞬间到达两耳的声压相似性的量度。假设空间某一声源在听音者左、右产生的声压分别为p_L(t)和p_R(t)，那么双耳听觉归一化互相关函数为

中*表示复数共轭。由可以计算出双耳听觉互相关IACC，即函数||在||≤1ms范围内绝对值的最大值

由定义可知，0≤IACC≤1。对应的即为双耳信号的时间差（ITD）。IACC分为早期IACC(IACC_E)和后期IACC(IACC_L)。不同的研究人员使用不同的带宽和时窗来计算IACC_E值，目前用80ms的时窗计算出来的IACCE值与ASW的匹配性最好。两者的关系是IACC_E越小，ASW越宽。

侧向声能比也是影响ASW的因素之一。研究表明LF越高，ASW越宽。侧向声能比的定义为

对音乐和语言信号而言，ASW还与声源触发阶段时间的长短相关。声源发声到逐渐消散通常会经历4个阶段：触发阶段（attack）、衰减阶段（decay）、保持阶段（sustain）和释放阶段（release），通常称为ADSR四个阶段。不是所有的声音包络都具有ADSR的4个阶段，例如管风琴就没有衰减阶段。图2-19所示为ADSR振幅包络曲线。

触发阶段是指声源发声后，声音逐渐增大，直到最大值的这一过程。对于触发阶段时间为50ms以内的声源而言，ASW与触发阶段的ITD和IID有关。由于在触发阶段直达声与反射声之间的相互作用会引起ITD和IID的变化，从而使得声像展宽。Griesinger曾以语音为声源做实验，结果表明一个能量较强的侧面反射声出现在触发阶段内，该反射声可以增大声音的声像宽度，否则没有影响。而声像扩展的程度随着触发阶段时间的增长和反射声能的增大而变大。

图2-19 ADSR振幅包络曲线

2.2.4 环绕感和空间感

在立体声的重放系统中，由于只能在听音者前方再现一定的声场，所以包围感和空间感并没有成为人们重点关注的主观参数。而环绕声系统的出现，由于增加了后方环绕声通道，使得360°的声场再现成为可能。如何能够更好的获得环绕感和空间感也成为环绕声系统成功与否的重要参数之一，搞清楚这些问题也为以后的系统设计提供有力的理论依据。关于空间感的定义有很多，一种比较准确的说法是如果一个声场能够给人提供广阔的环绕的空间印象，那么这个声场就有空间感。这样看来空间感和环绕感属于同类词，通常用环绕感（listener envelopment，LEV）来表示。

2.2.4.1 声源对环绕感和空间感的影响

人们对空间感的感知是与声源相关的。为了进一步描述，我们引入一个概念“空间印象”（spatial impression，SI），它是指声学印象，所反映的空间可能很活跃也可能很沉寂。

当持续声源例如白噪声等信号源作为激励源时，所产生的空间印象我们称为持续空间印象（continuous spatial impression，CSI），如图2-20所示。由于声源是连续的，将形成具有一定时间长度的独立声音事件，而环绕声可能会因为音色的不同而被人耳所察觉，从而形成空间感。Griesinger使用频率范围为300～2000Hz的噪声信号进行相关实验，结果表明信号的响度与空间感无关。而对于含有低于300Hz的噪声信号而言，随着响度的增加，空间感也随之增长。这是由于人耳对低频信号的听阈较高，当提高信号的响度，低频反射声超出听阈门限时就可以被听到，从而形成空间感。CSI与直达声和反射声的比值以及反射声的入射角度有关。

图2-20 持续空间印象

当声源是由单个的声音成分组成时，例如语音或者乐音，产生的空间印象将相对复杂。直达声后50ms以内的反射声产生的空间印象称为早期空间印象（early spatial impression，ESI），如图2-21所示；由50ms以后的反射声产生的空间印象称为背景空间印象（background spatial impression，BSI），如图2-22所示。

我们可以看出ESI并没有产生环绕感，声像仍定位在前方，只是将声像展宽。这可以很容易解释小房间中空间感不足的原因。当两个人在小房间谈话，在房间表面并没有做太多吸声处理的情况下，人耳能接收到大量的反射声，但是并没有感觉到有太多的空间感，这是由于房间较小，大部分的反射声都位于直达声50ms内到达人耳，主要形成了ESI。

图2-21 早期空间印象

图2-22 背景空间印象

在BSI中，后期反射声能会产生良好的环绕感，而这种空间印象与声源无关的，而与空间环境密切相关。

2.2.4.2 后期反射声能对环绕感和空间感的影响

在后期反射声对空间感影响研究的初期阶段，人们把注意力主要集中在侧向反射声上。Morimoto最早提出与LEV相关的物理量IACC_L，这个结论是在只考虑后期反射声传播中的前面和侧面方向得出的，而没有考虑其他方向的反射声影响。随后Bradley和Soulodre在通过对很多客观参量研究后发现，在包括不同声级、侧向声能比、早期和后期反射声信号的双耳相关度等参数中，后期侧向声级（late lateral energy level，GLL）与LEV有着最密切的关系。GLL的定义如下：

后期侧向声能通过一只主轴指向侧方的八字型指向传声器测得，后期总声能则通过距离声源10米处的全指向传声器测得，主轴指向声源方向。

为了不仅考虑侧向反射声对LEV的影响，Bradley近年又在之前的研究基础上提出余弦平方计权的后期声能GLL（125Hz～1kHz）最能反映LEV，并通过消声室中电声系统模拟声场的主观评价加以验证。余弦所对应的角度是后期反射声传到人耳的方向与水平面上贯穿人双耳的直线方向的夹角。所谓的余弦平方计权就是指不同方向传来的后期反射声能在正对人耳方向上的分量。GLL（125Hz～1kHz）测量方法与GLL是完全相同的。通过听音者对不同声场环境下所产生的LEV的评价，发现LEV感觉随余弦平方计权的后期声级GLL（125Hz～1kHz）的增加而呈线性递增，如图2-23所示。通过实验，我们可以看出所有方向的后期声能都对LEV起作用，方向的影响通过余弦平方计权的后期声级GLL（125Hz～1kHz）对LEV直接起作用，当后期声与贯穿人双耳的直线方向成0°时，LEV将达到最大。

图2-23 GLL（125Hz～1kHz与LEV的关系