噪声抑制在远场语音识别和通话中的应用

对带噪语音做噪声抑制,在远场语音识别和通话中都会用到,也都会碰到一个矛盾,是尽量的消除噪声即便对语音有损伤,还是尽量的不损伤语音即便保留一些噪声呢?

笔者这些年,接触了不少语音识别行业和通话行业的人,大家都在说,我们是两个行业,虽然噪声抑制的原理差不多,但是一个是给机器听的,一个是个人听的。

那么具体有什么不同呢?

语音识别行业的说,我们不需要降那么干净,不能损伤语音,否则会影响识别的效果。你们通话行业,可以降得狠一些,反正人的纠错能力很强,对语音损伤一点关系不大。

而通话行业的说,我们是给人听的,舒适度最重要,宁可噪声多留一点,也不能损伤语音。你们识别行业,可以降得狠一些,反正给机器听,能识别出来就行。

哈哈,两个行业对对方的认知竟然有这么大差异,不知不觉中竟然走到了一条路线上来,最终结果呢?都是希望不损伤语音。

其实语音识别行业和通话行业,对降噪的最大差别是:是不是要求按帧实时处理。

语音识别行业根据使用场景,是可以积累一定的数据量再处理的,而通话行业,则必须是按帧实时处理。

加上这个限定,通话行业对噪声抑制的算法要求更苛刻一些,在语音识别行业可以用的方法,改成按帧实时后,效果往往会打折扣。

原文地址:https://www.cnblogs.com/c6000/p/10701891.html