Tips on Acoustic Signal Processing

分析工具

1、audacity 强大免费

使用参考：http://www.360doc.com/content/13/0620/17/1437142_294320939.shtml

知识点

1、声音的三个主要的主观属性（即音量、音调、音色）。音色（Timbre）是指不同的声音的频率表现在波形方面总是有与众不同的特性，音色的不同取决于不同的泛音。频率的高低决定声音的音调，振幅的大小决定声音的响度，音色区分不同的发声材料物体。

2、Chirp信号：线性调频信号，是指频率随时间而线性改变(增加或减少)的信号。线性调频的瞬时频率f(t)呈线性变化：f(t)=f0+kt，其中f0表示时间等于零时的频率，k表示频率改变的速率，当k>0时，频率递增，k<0则递减。主要应用：常见的包括声纳、雷达、多普勒效应效应。为了能够测量长距离又保留时间的分辨率，雷达需要短时间的派冲波但是又要持续的发射信号，线性调频可以同时保留连续信号和脉冲的特信，因此被应用在雷达和声纳探测上。

3、传统阵列处理的信号主要是远场窄带信号，如声呐和雷达等。

4、语音信号主要为宽带信号。现实中的声信号是未经过调制的宽带信号。（求正式出处，文章？？）

5、麦克风阵列 (MA) 接收到的语音信号多为宽带信号，每对麦克风接收到的信号之间时间差与相位差并没有直接对应关系；MA接收到的语音信号多为不平稳信号，短时平稳时间内无法采集足够的数据；MA接收到的语音信号受室内环境影响，除了其他干扰信号与环境噪声外，还存在混响噪声。

6、麦克风的灵敏度、方向性、固有噪声等指标是衡量麦克风性能的重要指标。【eg, 最近用的InvenSense ICS-40720是一款超低噪声，差分模拟输出的MEMS麦克风。全向，频率范围75hz-20khz，信噪比70dB，灵敏度-38dB ±2dB @ 94dB SPL】

7、声源定位算法中，麦克风接收信号的信噪比和信混比是影响定位性能的重要因素，这二者越高，则表明接收信号质量越高，相应的定位精度就越高。

8、作为很有效的阵列信号增强算法，谱减法则属于不需要构建模型的非参数方法。谱减法最核心的部分就是对语音进行傅里叶变换，所以在对语音进行增强的时候一定要确认傅里叶变换的准确性和稳定性，傅里叶变换的完成就可以使最后谱减法的结果准确。

9、MUSIC算法的基本原理是对阵列接收数据的自相关矩阵进行特征分解，获取噪声子空间与信号子空间，利用其正交性，构造空间谱（伪谱），通过谱峰搜索，估计非相关平面波的DOA。

10、人并不能区分所有频率分量，只有两个频率分量相差一定带宽时（1000hz以下，带宽恒定100hz；1000hz以上，带宽与中心频率成指数关系），人类才能区分，否则人就会把两个音调听成一个，这称为屏蔽效应，带宽称为临界带宽。

11、中心频率：声音高低主要与频率有关，由于可听声的声频太宽(从20Hz到20000Hz)，为便于进行频率分析，将其分为若干段，称为频程。每频程的上限与下限频率的几何平均值称为该频程的中心频率。

12、采样频率为Fs，信号频率F，采样点数为N。由Nyquist采样定理知道，Fs ＞ F。N点FFT之后结果就是一个为N点的复数。每一个点就对应着一个频率点。这个点的模值，就是该频率值下的幅度特性。第一个点表示直流分量（即0Hz）。频率分辨率 = Fs/N。如果要提高频率分辨力，则必须增加采样点数，也即采样时间。频率分辨率和采样时间是倒数关系。

奈奎斯特频率（Nyquist频率）是离散信号系统采样频率的一半，因哈里·奈奎斯特（Harry Nyquist）或奈奎斯特－香农采样定理得名。采样定理指出，只要离散系统的奈奎斯特频率高于被采样信号的最高频率或带宽，就可以避免混叠现象。在语音系统中我通常采样率取16khz，而人发生的频率在300hz~3400hz之间，按照Nyquist频率的定义就有Nyquist频率等于8khz高于人发生的最高频率，满足Nyquist频率的限制条件。FFT就是根据Nyquist频率截取采样率的一半来计算，具体来说就是，假设一帧有512个采样点，傅里叶变换的点数也是512，经过FFT计算后输出的点数是257(N/2+1)，其含义表示的是从0(Hz)到采样率/2(Hz)的N/2+1点频率的成分。也就是说在经过FFT计算时不仅把信号从时域转到了频域并且去除了高于被采样信号的最高频率的点的影响，同时也降低了维度。

13、麦克风阵列信号的采样频率是Fs=64000Hz，傅立叶变换点数是1024，那么对每个子间隔进行J点的离散傅立叶变换，就得到了宽带内J个不相重叠的子带。所以得到了宽带内1024个不重叠的子带。每个窄带的频带宽度是64000/1024=62.5Hz；因为语音信号频率主要集中在300～3000Hz之间，而且某点n所表示的频率为：Fn=(n-1)*Fs/N，所以我们选取的测试数据主要集中在5～49个频点之间，超过或者小于这个范围测试的话一般会出现测试偏差，或者出现旁瓣，影响主瓣峰值位置的判断。

14、相关系数度量指的是两个不同事件彼此之间的相互影响程度；而自相关系数度量的是同一事件在两个不同时期之间的相关程度，形象的讲就是度量自己过去的行为对自己现在的影响。

自相关（英语：Autocorrelation），也叫序列相关，是一个信号于其自身在不同时间点的互相关。非正式地来说，它就是两次观察之间的相似度对它们之间的时间差的函数。它是找出重复模式（如被噪声掩盖的周期信号），或识别隐含在信号谐波频率中消失的基频的数学工具。它常用于信号处理中，用来分析函数或一系列值，如时域信号。

15、时间序列必须是平稳的才可以做后续分析，差分和log都是为了使时间序列平稳。

一个时间序列，如果均值和方差没有系统变化或周期性变化（均值无变化：没有明显趋势，方差无变化：波动比较稳定），就称之为平稳的。

16、频谱泄露与傅里叶变换尤其是离散时间傅里叶变换有关：信号为无限长序列，运算需要截取其中一部分（截断），于是需要加窗函数，加了窗函数相当于时域相乘，于是相当于频域卷积，于是频谱中除了本来该有的主瓣之外，还会出现本不该有的旁瓣，这就是频谱泄露！

为了减弱频谱泄露，可以采用加权的窗函数，加权的窗函数包括平顶窗、汉宁窗、高斯窗等等。而未加权的矩形窗泄露最为严重。(主瓣通常指Sa(x)=sinx/x函数或与之有关的函数图像（例如频谱）中从负到正第一个完整的瓣，旁瓣是指后面其他的低矮的瓣。)

17、在物理学中，把单位时间内通过垂直于声波传播方向的单位面积的平均声能，称为声强。实验的研究表明，人对声音强弱的感觉并不是与声强成正比，而是与其对数成正比的。

声音的大小可以叠加，但是不是分贝数的简单相加。分贝的定义：噪音物理量的测量大都利用仪器测得音压量 (或音压位准，sound pressurelevel,简写为SPL)，使用的单位为分贝(deci-Bell, dB)，此单位是纪念电话的发明人贝尔(Bell)，原先定义为β=log(I/I0)，其中I0是人耳最小可感觉的声音强度(sound intensity)，其值为10-12W/m 2，但使用此方式定义，则可听的最大声音为14B，此范围太狭窄，使用上不方便，故取其十分之一为实用单位，即分贝(deci-Bell,简写为dB)。因此，定义音量位准为：L =10 log(I/I0) 也就是说，20分贝的声音功率是10分贝功率的十倍，30分贝的声音功率是20分贝声音功率的十倍，以此类推。 10个声源同时发出10分贝的声音，那么功率是10分贝的10倍，也就是20分贝。

SIL=10lg[I/I’]=10lg（I/I’）式中I为声强，I’=10e-12瓦/平米称为基准声强，声强级的常用单位是分贝（dB）。

18、音强（intensity）[与上一条相同？] ，声场中某点通过与质点速度方向垂直的单位面积的声能在一定时间T内的平均值。声强是一矢量，单位为瓦每平方米(W／㎡)。表达式为：

其中 p(t)——某点的瞬时声压，单位为帕(Pa)；u(t)——同一点的瞬时质点速度，单位为米每秒(m／s)； T——平均时间，单位为秒(s)。

19、一般来说，声音频率一定时，声强越强，响度也越大。但是响度与频率有关，相同的声强，频率不同时，响度也可能不同。响度若用对数值表示，即为响度级，响度级的单位定义为方，符号为phon。根据国际协议规定，0dB声级的1000Hz纯音的响度级定义为0 phon，n dB声级的1000Hz纯音的响度级就是n phon。

20、音高也是一种主观心理量，是人类听觉系统对于声音频率高低的感觉。音高的单位是梅尔（Mel）。响度级为40 phon，频率为1000Hz的声音的音高定义为1000Mel。

21、基音周期描述了语音激励源的一个重要特征，它反映了声门相邻两次开闭之间的时间间隔或开闭的频率。（因为女性基频比男性高，所以有些算法中使用基频来区分性别，还挺准的）

基音周期的估算方法很多，比较常用的有自相关法，倒谱法（我们提基频用的倒谱法），平均幅度差函数法，线性预测法，小波—自相关函数法，谱减—自相关函数法等。

自相关法：
1. 预处理：为了提高基音检测的可靠性，有人提出了端点检测和带通数字滤波器两种预处理方法对原始信号进行预处理。在提取基频时端点检测比一般端点检测更为严格（一般端点检测会保留语音有话段的头和尾，以避免把有用信息当作噪声滤除，但头和尾不包括基频信息，所以在进行提取基音的端点检测时阈值设定更为严格，滤去头部和尾部）。用带通滤波器预处理的目的是为了防止共振峰第一峰值的干扰，一般带通滤波器的频率范围选为60~500Hz。
2. 自相关法：短时自相关函数的定义为其中k是时间的延迟量，N为帧长，短时自相关函数具有以下重要性质。若当原信号具有周期性，那么它的自相关函数也具有周期性，并且周期性与原信号的周期相同。且在K等于周期整数倍时会出现峰值。清音信号无周期性，它的自相关函数会随着K的增大呈衰减趋势，浊音具有周期性，它的R（k）在基因周期整数倍上具有峰值，通常取第一最大峰值点作为基因周期点。自相关函数法基音检测正是利用这一性质来进行基因周期检查的。

22、信噪比的计量单位是dB，其计算方法是10lg(PS/PN)，其中PS和PN分别代表信号和噪声的功率（用能量也是一样的）。
在噪声和语音完全混杂的情况下信噪比很难计算，在预知噪声的情况下，可以用实际信号（纯语音+噪声）减去噪声，得到近似的纯语音信号。从而通过进一步计算求得信噪比。我们在实验中所采集的信号信噪比低时在10几dB，信噪比高时在30dB以上。

23、共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道（共振腔）的物理特征。声音在经过共振腔时，受到腔体的滤波作用，使得频域中不同频率的能量重新分配，一部分因为共振腔的共振作用得到强化，另一部分则受到衰减。由于能量分布不均匀，强的部分犹如山峰一般，故而称之为共振峰。

在语音声学中，共振峰决定着元音的音质。共振峰可以等效为声道系统函数的复极点对，由于人的声道平均长度为17cm，而语音信号的能量主要集中在0-5kHz。因此语音通常包含4到5个稳定的共振峰，一般只需要研究前三个共振峰。

共振峰：单元音频谱图，橫轴为频率，纵轴为分贝。每一尖峰代表一个谐波，谐波频率不稳定所以呈尖峰图形。几个相邻的比较高的尖峰组成共振峰，共振峰频率是它们的包络线所在的峰值。

24、智能设备自己播放的声音将被其自身的麦克风采集到，即我们通常说的声学回声（Acoustic Echo），而回声消除（Acoustic Echo Cancellation, AEC）技术通常用于抑制回声，减小其对有用信号造成的影响。

传统的回声消除算法，例如NLMS（Normalized Least Mean Square），其信号模型一般建立在单讲模型（即只有回声或将近端信号建模为高斯噪声的情形）之上，并结合梯度下降法在单讲段进行更新。

对于双讲情况（即近端语音和回声同时出现），为了防止有用的近端语音被抑制，通常采用的方法是暂停滤波器更新或者减小迭代步长以放慢更新速度。

参考

1、https://www.cnblogs.com/Vanessa-Feng/p/7449709.html