噪声抑制在远场语音识别和通话中的应用

对带噪语音做噪声抑制，在远场语音识别和通话中都会用到，也都会碰到一个矛盾，是尽量的消除噪声即便对语音有损伤，还是尽量的不损伤语音即便保留一些噪声呢？

笔者这些年，接触了不少语音识别行业和通话行业的人，大家都在说，我们是两个行业，虽然噪声抑制的原理差不多，但是一个是给机器听的，一个是个人听的。

那么具体有什么不同呢？

语音识别行业的说，我们不需要降那么干净，不能损伤语音，否则会影响识别的效果。你们通话行业，可以降得狠一些，反正人的纠错能力很强，对语音损伤一点关系不大。

而通话行业的说，我们是给人听的，舒适度最重要，宁可噪声多留一点，也不能损伤语音。你们识别行业，可以降得狠一些，反正给机器听，能识别出来就行。

哈哈，两个行业对对方的认知竟然有这么大差异，不知不觉中竟然走到了一条路线上来，最终结果呢？都是希望不损伤语音。

其实语音识别行业和通话行业，对降噪的最大差别是：是不是要求按帧实时处理。

语音识别行业根据使用场景，是可以积累一定的数据量再处理的，而通话行业，则必须是按帧实时处理。

加上这个限定，通话行业对噪声抑制的算法要求更苛刻一些，在语音识别行业可以用的方法，改成按帧实时后，效果往往会打折扣。