语音基音周期估计基础

先说下为什么要检测语音基音周期

(1)基音决定了语音的音调。汉语是一种有调的语音,同一句话,语调不同,意义差别非常大,准确的检测语音的基音周期,有利于“理解”话语中的意思。
(2)语音合成、声调控制等音效果制作的需要。
 
再说下什么是基音周期
按照经典的语音激励模型,声带周期性的张开和闭合所需要的时间,就是指基音的周期(假如声带某次从开启到闭合的时间为4ms,那么,它的基音频率为250Hz)。很显然,要准确的检测基音周期,需要尽可能的先去掉声道模型和辐射模型的干扰。
 
一般来说,男性的基音频率约为50Hz~250Hz,女性的基音频率约为:100Hz~500Hz,所以我们通常把基音频率的上限限制为500Hz,同时,又由于50Hz对应的是交流电的工频频率,难以去掉它的噪声干扰,所以这个频率检测时也不予考虑。综上,基音频率的检测范围在60Hz~500Hz或者70Hz~500Hz比较好。
 
基音周期检测的困难
(1)有些音的发音不具有声带的震动,通常这些音为过渡音。
(2)基波的分量往往不是最强的分量,容易把一些浊音的谐波当做基波(这是因为经过声道激励后,一些谐波分量变的比较强)
(3)基音周期变化范围大,从老年男人的50Hz到儿童和女性的500Hz,给检测带来了一定的困难。
 
基音周期检测预处理
(1)端点检测(多媒体核心技术群中在2015-04-18日已经讲过了)
(2)带通滤波(60Hz~500Hz),尽可能去掉声模型和辐射模型的干扰(去掉50Hz是为了避免工频噪声的干扰)
 
基音周期估计的方法
(1)平均幅度差法
  语音的浊音,通常会呈现出一定的周期性,这个周期性与基音的周期一致,通过计算平均幅度差,来找到这个周期,就可以得到基音的周期。
(2)相关法
  同样的道理,通过计算语音信号的自相关特性,并寻找相应的周期性,也可以得到语音的基音周期
(3)倒谱法
  使用倒谱处理,使得脉冲激励与声道响应进行分离,再查找最大值,就可以得到语音的基音周期
(4)线性预测法
  这类方法是先利用线性预测法,得到预测系数,再用这些系数去重建信号,这样就弱化了声道响应的影响。再进行自相关处理或者倒谱处理,就可以得到语音的基音周期
原文地址:https://www.cnblogs.com/icoolmedia/p/pitch_period_estimation.html