pyAudio介绍

概要

pyaudio有这么几个功能：
- 提取特征
- 训练并且使用分类器
- 语音分割功能
- 内容关系可视化

python实现，好处有这么几个
- 适合做计算分析类型操作（编码少，效率不低）
- 免费
- 不需要很复杂的搭环境
- 大量的第三方库可以使用

特征提取(feature extraction)：关于时域信号和频域信号都有所涉及
分类(classification)：监督学习，需要用已有的训练集来进行训练。交叉验证也实现了，进行参数优化使用。分类器可以保存在文件中以后使用。
回归(regression)：将语音信号映射到一个回归值。
分割(segmenttation)：有四个功能被实现了
- [x] 固定大小的分割
- [x] 静音检测（silence removal）
- [x] 语音聚类（speaker diarization）
- [x] 语音缩略图(audio thumbnailing)
可视化：给定语音，将内容可视化

所有的短时间特征可以见下图

短时间特征（short-term features）
- 时域特征（特征1-3）是直接提取的
- 频域特征（特征4-34，MFCC除外）是由傅里叶转换而来
- MFCC特征提取过程已经讨论过

过程：语音信号分帧，一帧有34个特征。一般20~100ms

中等长度特征（mid-term features）和特别长的特征（long-term features)
- 中等长度的调用短时间的特征，并进行统计运算
- 1-10分钟左右长度
- long-term调用Mid-term然后做统计运算
速度有关的特征

pyaudio提供了两类的语音分割
- 有监督的语音分割：需要有提供一些材料，例如，已经训练好的分类器。为此，此库提供了两种算法：分类的方法和隐马尔科夫的算法
- 无监督的语音分割：无监督的或者半监督的，不需要提供知识准备，主要的例子是静音检测，语音聚类，语音缩略图

静音检测
- 短时间特征提取
- 训练SVM，在高能帧和低能帧中，特别的，10%的高能帧和10%的低能帧用在训练SVM模型
- 将SVM分类器用在全部的语音中，得到一串概率值，对应此帧是个时间帧（audio event）的概率
- 一个动态的阈值被用来探测段是不是活跃的