语音笔记：MFCC

一，传统语音识别体系结构

二，MFCC特征提取

　　MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。例如：对于一帧有512维(采样点)数据，经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了将维的目的。MFCC一般会经过这么几个步骤：预加重，分帧，加窗，快速傅里叶变换(FFT)，梅尔滤波器组，离散余弦变换(DCT)。

　　其中最重要的就是FFT和梅尔滤波器组，这两个进行了主要的降维操作。

提取MFCC特征的过程：

1.先对语音进行预加重、分帧和加窗；

2.对每一个短时分析窗，通过FFT得到对应的频谱；

3.将上面的频谱通过Mel滤波器组得到Mel频谱；

4.在Mel频谱上面进行倒谱分析（取对数，做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数），获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征。

接下来，语音就可以通过一系列的倒谱向量来描述了，每个向量就是每帧的MFCC特征向量。