音频分类技术

音频分类前置知识

音频

音频常常被表示为波形图，其中横轴为时间，纵轴为幅值。音频多种多样，分类中一般分为语音、音乐、噪音、静音和环境音等。

采样频率

每秒从模拟信号中采集的样本个数，基本单位为Hz。信号的采样频率一般遵循奈奎斯特采样定理，即采样频率必须大于被采样信号最高频率的两倍。一般而言：

8000Hz为电话信号使用的采样率；
11025Hz通话音质更高，可分辨出通话人；
16000Hz可覆盖几乎所有的乐器和人声频率，也是大多数成年人能够听到的声音频率；
22050Hz为无线电广播长采用的频率；
32000Hz为VCD等多媒体数据文件所使用的采样率；
44100Hz为CD音频使用的采样率；
192000Hz为蓝光音轨和高清晰度DVD音轨的采样率。

采样位数

每一个采样点所使用的二进制位数，即计算机对声音信号的解析度。通常使用的采样位数有8位，16位和24位。

音频的构成要素

声学三要素：声音的音调、音色和响度。
- 音调：也称音高，对应音频信号的频率。音频信号的音调越高月能够给人以明亮和尖锐的感觉，音调越低越是给人厚重和低沉的感觉。
- 音色：也称音品，对应音频信号的相位。主要由音频信号波形的包络和信号谐波的频谱，包含不同包络和不同谐波的音频信号的内容也不同。音频信号频谱的基频所产生的能量最大的音称为基音，相应的各次谐波所发出的声音一般被称为泛音。不同的音频信号中一般都包含着固定的基音频率和不同强弱的泛音。
- 响度：播放出的音频的音量，对应着音频信号的幅度。音频的响度主要取决于信号的振幅大小，也即声音信号包含的能量大小。
音乐三要素：旋律、节奏和和声。
- 旋律，也称“曲调”，是构成音乐的首要因素。旋律几乎可以指代任何含有音高和节奏的人声或乐器的乐音序列，不同组合的音高和节奏表现出的音乐旋律也不尽相同。
- 节奏：音乐的节奏是由不同长短或强弱的节拍组成的有序整体，一般而言急促的节奏能够给人带来紧张的感觉，舒缓的节奏则给人带来轻松愉悦的感觉。
- 和声：在同一时间由两个或两个以上音高的音组合发生形成的声音。

特征提取

音频信号分析一般分为时域分析、频域分析，倒谱域分析等。

时域特征

处理直观、运算量小。设(L)表示分帧的帧长，(u_i(n))表示分帧后得到的第(i)帧信号中第(n)个点的幅度值。

短时能量DSNL

短时能量常用于音频信号的端点检测，表示音频信号在一段很小窗口内的能量之和：

[DSNL_i=sum_{n=1}^L u_i^2(n) ]

短时能量和短时过零率是音频信号时域特征中最重要和基本的特征，主要反映时域中音频信号的能量随时间的变化，可区分能量差异较为明显的音频。一般而言，浊音段的平均短时能量最高，其次是清音段，无声段的平均短时能量最低。

短时过零率DSGLL

信号中的过零，即在数字信号波形中，相邻信号幅值的符号发生变化的次数占信号样本总样本点数的比值，反映的是信号相邻幅值之间连线穿过零电平的次数。浊音的平均短时过零率一般小于清音的平均短时过零率，这主要是因为发清音时引起的频谱高频跌落，导致信号能量大多集中在较低频段，而发浊音时没有这种情况，其能量大多集中在较高频段：

[DSGLL_i=frac{sum_{n=1}^L|sgn[u_i(n)]-sgn[u_i(n-1)]|}{2L} ]

其中(sgn[])是符号函数，即：

[sgn[x]=left{egin{matrix} 1,x geq 0 \ -1,x<0 end{matrix} ight. ]

短时平均幅度差DSFDC

[DSFDC_i(k)=frac{sum_{n=0}^{L-k-1}|u_i(n+k)-u_i(n)|}{L} ]

其中(k)为延迟量，(kin [1,L])。如果音频信号是周期性为(pn)的周期性信号，则当(k=0,pm pn,pm 2pn,...)时，(DSFDC_i(k))的值为0；当音频信号不是周期性信号时，在基音周期处(DSFDC_i(k))组成的曲线会出现谷值，并且随着时间增加，低谷深度随之衰减。

短时自相关系数ZXGXS

短时自相关函数一般用于信号的端点检测和基音提取，可用于区分语音中的声母和韵母，音频信号的短时自相关系数计算公式如下：

[ZXGXS_i(k)=frac{sum_{n=0}^{L-k-1}u_i(n)u_i(n+k)}{L} ]

其中(k)为延迟量，(kin [1,L])。

短时平均幅度DSPJFD

短时平均幅度类似于短时能量，均反映音频信号能量大小。它与短时能量的主要区别在于，其不会因为对信号采样幅值的大小取二次方而改变原始信号的时域信息：

[DSPJFD_i=frac{sum_{n=1}^L|u_i(n)|}{L} ]

频域特征

对音频信号进行频域上的研究，可以将信号在时域上无法表现的特征显现出来。傅里叶变换（Fourier Transform）可以完成信号从时域到频域的转换，时域上连续的模拟信号被分解为不同频率分量的频谱，从而可以根据不同信号中包含频谱的不同进行分类。

频域能量PYNLE

频域能量，即一帧音频信号经傅里叶变换后在频域的能量：

[PYNLE_i=int_0^{w_0}|F_i(w)|^2dw ]

其中，(w_0)为采样频率的二分之一，(F_i(W))表示第(i)帧信号的傅里叶变换。频域能量是区分静音和非静音的有效特征，通常而言语音中会包含比音乐更多的静音片段，因此语音中的频域能量变化要比音乐中的变化大。

子带能量比ZDNLB

若将频域划分为4个子带，即([0,frac{w_0}{8}],[frac{w_0}{8},frac{w_0}{4}],[frac{w_0}{4},frac{w_0}{2}],[frac{w_0}{2},w_0])，则第(i)帧中第(j)个子带能量与频域总能量的比值(ZDNLB_{ij})可以表示为：

[ZDNLB_{ij}=frac{int_{w_1^j}^{w_2^j}|F_i(w)^2|dw}{PYNLE_i} ]

其中，(w_1^j)表示第(j)个子带的下边界频率，(w_2^j)表示第(j)个子带的上边界频率。由于在频域中不同子带包含的能量不同，因此可以使用子带能量比进行分类，如音乐的子带能量比分布比较均匀而语音信号的能量主要集中在初级子带上。

基于帧的频谱质心PPZX

频谱质心是用于度量频谱中心的特征，该值越大，表示信号的高频成分越多，基于帧的频谱质心的计算公式为：

[PPZX_i=frac{sum_{w=l_i}^{h_i}w|F_i(w)|^2}{sum_{w=l_i}^{h_i}|F_i(w)|^2} ]

其中，(l_i)和(h_i)分别代表第(i)帧信号经过傅里叶变换后子带中频率的最小值和最大值。一般来说，不同音频的频谱质心不尽相同，音乐信号的频谱质心一般高于语音信号的频谱质心。

基于帧的频谱带宽

信号在频域中包含谐波的最高频率与最低频率差的绝对值即为此信号的带宽，反映的是音频信号频率的变化范围，带宽越大则信号频率的变化范围越大。基于帧的频谱带宽：

[BW_i=sqrt{frac{int_0^{w_0}(w-PPZX_i)^2|F_i(w)|^2dw}{int_0^{w_0}|F_i(w)|^2dw}} ]

根据音频信号带宽，可以完成对音频的分类。一般语音信号带宽低于音乐信号。

基音周期PER

在发浊音时，声带会进行周期性的震动，所以浊音信号一般带有明显的周期性，而发浊音时声带振动的频率就称为声音信号的基音频率，该频率对应的周期就是信号的基音周期。基音周期主要描述音频信号激励源的特征，音频信号的基音变化模式不同其对应的声调也不同，自相关函数法、平均幅度差函数法、倒谱法、小波法都是基音周期检测常用的方法。

倒谱法计算基音周期：

声音信号(x(n))是声门激励(eg(n))经声道脉冲响应(v(n))滤波得到的，即：

[x(n)=eg(n)*v(n) ]

设这三个量的倒谱分别为(hat{x}(n),hat{eg}(n),hat{v}(n))，则有：

[hat{x}(n)=hat{eg}(n)+hat{v}(n) ]

可见，在倒谱域中含有基音信息的声脉冲倒谱(hat{eg}(n))与声道响应倒谱(hat{v}(n))是相互分离的，因此可以直接从(hat{eg}(n))中恢复出(eg(n))，求出基音周期。实际上，计算出倒谱后，其倒谱函数的最大值对应的样本数即为该帧音频信号的基音周期。

基音频率FP

基音周期FER取倒数即可得到基音频率，音频信号基音频率的高低影响着声音音调的高低，基音频率越高则声音的音调越高，反之亦然。

倒谱域特征

梅尔倒谱系数Mel-Scale Frequency Cepstral Coefficients, MFCC

梅尔倒谱系数是基于人类听觉机理，在梅尔标度频率域提取出来的信号的倒谱参数，其主要通过人的听觉实验结果对音频信号进行分析。梅尔刻度是一种基于人耳对等距的音高pitch变化的感官判断而定的非线性频率刻度，和信号频率(f)的关系如下：

[F_{mel}=1125mathop{ln}(1+frac{f}{700}) ]

其中，(F_{mel})是以梅尔(Mel)为单位的感知频率，(f)是以(Hz)为单位的频域频率。

分帧加窗预加重，快速傅里叶变换，取对数离散余弦变换，即可得到MFCC参数。由于语音和音乐的频谱大都分布在几赫兹到几千赫兹之间，高阶的MFCC参数包含的音频信息几乎可以忽略，因此可以提取前12阶的梅尔倒谱系数作为音频信号的特征参数。

线性预测倒谱系数Linear Prediction Cepstrum Coefficient, LPCCM

线性预测倒谱系数一般用于表示信号的谱包络信息。

其它特征

响度XD

响度，反映音频信号能量大小：

[XD(g)=sqrt{frac{sum_{i=1}^{N}(x_g(n'))^2}{N}} ]

响度范围XDR

响度范围顾名思义，即响度的最大值减最小值。

静音帧比例JYZBL

静音帧是指短时能量在一定阈值内的音频帧，音频信号分帧后，静音帧数量占总帧数的比重称作该音频段段静音帧比例。

小波系数XBXS

通过小波变换的多次迭代，完成对输入信号细节部分的分析。

反射系数KM

反射系数是语音识别，语音合成、低速率语音编码等领域的重要特征。

能熵比NSB

能量值与谱熵值的比值。

能零比NLB

能量与过零率的比值：

[NLB_i=frac{LE_i}{DSGLL_i+cb} ]

其中，(cb)是一个小常数，以避免除0错误。

共振峰中心频率GZFCF和共振峰带宽GZFB

激励进入声道后，声道会产生共振特性，不同截面的声管产生的共振频率个不相同，这些共振频率共同组成了声音信号的共振峰频率。共振峰表示的是信号频谱包络中的极大值，该极大值在频谱中对应的频率即为共振峰中心频率，该信号的共振峰中心频率范围即为共振峰带宽。

音频分类模型

常见的音频分类模型包括决策树、K近邻(KNN)以及神经网络的算法。可参见：周志华《机器学习》。

胡耀文. 音频信号特征提取及其分类研究[D]. 昆明理工大学, 2018.

贾强. 音频分类技术研究