谱减算法的缺点和过减因子、谱下限的关系

当使用谱减法时，如果带噪语音的幅度谱与估计出来的噪声谱相减出现负值时，说明对噪声的估计出现了过估计问题。对这种现象最简单的处理就是将负值重调为0。以保证非负的幅度谱。但是，这种对负值的非线性处理，会导致信号帧频谱的随机位置上出现小的、独立的峰值。转换到时域后，这些峰值听起来就像帧与帧之间频率随机变化的多频音，这种现象在清音段会更加明显。这种由于半波整流引起的“噪声”被称为“音乐噪声”。

谱减法的另一个较小的缺点是使用带噪信号相位，因此可能产生比较粗糙的语音质量。由于要估计纯净语音语音的相位很困难，并将极大地增加算法的复杂度。与幅度谱噪声相比，相位噪声带来的语音失真并不是很大，尤其是在高信噪比条件下。因此，使用带噪语音相位被认为是一个可以接受的方案。解决音乐噪声问题比寻找纯净信号相位的问题更为迫切。因此，有必要对导致音乐噪声的因素做一些介绍：

1.对谱减中的负数部分进行了非线性处理

2.对噪声谱的估计不准

3.抑制函数（增益函数）具有较大可变性

减小音乐噪声的方法是对谱减的负值设置一个下限，而不是将它们设为0。该下限的取值根据相邻帧的最小谱值确定。因为对噪声的估计需要确定无语音段（或低能量段），需要用到后续帧的语音谱，因此不可能满足实时应用。

Berouti等人提出了一种不需要未来信息的方法。该方法减去噪声谱的过估计，其技术具有如下形式：

|X|^2 = |Y|^2 - alpha*|D|^2 (当｜Y|^2 > (alpha + beta)*|D|^2时)

|X|^2 = beta*|D|^2

其中alpha为过减因子（大于等于1），beta（大于0小于等于1）是谱下限参数。

使用过减因子与谱下限的动机在于：当从带噪语音谱中减去噪声谱估计的时候，频谱中会残留一些隆起的部分或谱峰，有些谱峰是宽带的，有些谱峰很窄，看起来像是频谱上的一个脉冲。通过对噪声谱的过减处理，我们可以减小宽带谱峰的幅度，有时还可以将其完全消除。

但是仅仅这样还不够，因为谱峰周围可能还存在较深的谱谷。因此需要使用谱下限来“填充”这些谱谷。因此，参数beta可以控制残留噪声的多少以及音乐噪声的大小。