语音合成

  

1. 什么是语音合成?

2. PSOLA算法

3. 基于HMM的参数合成

4. 未来有哪些趋势?

(本系列时常补充和纠错) 

1.1 什么是语音合成?

  语音识别是最近几年很火的一个词,也是一个应用到生活中各种方面的一个技术。比如说经常使用的语音输入,微信的语音转文字,科大讯飞的语音翻译,手机的语音助手,智能音箱。这些东西都使用了语音识别技术,通俗来说,语音识别技术,就是用户输入一段语音,系统负责将语音转换成文字。

  语音合成则是一个相反的过程,语音合成要求用户输入一段文字,系统负责将文字转换成一段流畅自然的语音。其实,语音合成在生活中的应用也是随处可见,只是我们有时候会将其忽略。比如车辆的报站系统,手机语音助手的语音回答,电子书的自动朗读等等。总之,生活中我们遇到的大多数让机器发出声音的场景,都使用的语音合成技术。 

1.2 语音合成是怎么做到的?

  这里以其中一种典型的方法(拼接方法)做一个介绍。

  

图 1 : 拼接合成示意图

 

  在统计合成出现之前,语音合成技术大多是使用拼接合成。图中上面三个框图是拼接合成的三个步骤,下面三个框图是三个步骤使用的技术。

  文本分析的目的是找出文本中的停顿和重音等。语音合成的输入是一段文本,人类可以很快速的判断出一段文本哪里需要停顿,哪里需要重音,但是机器不知道。因此需要使用文本分析规则进行文本分析,让机器知道文本中的重音和停顿,也让机器知道文本中那些汉字组成一个词,那些汉字组成了一句话。下一步就需要依据文本从语音库挑选出适合的语音波形。这里需要介绍一下语音库,语音库中存储的是一个个音节的发音,而这些音节的发音全部来自对自然语音的切分,切分后对这些发音进行标注(包括发音记号、清浊音切分等等),有时候为了得到更加理想的合成效果,语音库中会存储同一发音记号对应的多个不同韵律的发音(比如不同音调、不同情感)。

  韵律控制则是为了实现对合成语音中的韵律调整。理想中的合成语音,是有着丰富韵律的,比如有的要重音,有的要低沉,而不是像机器人一样呆板而平稳的发音。这里的韵律控制主要是修改单个语音波形的时长和音调,以达到韵律控制的目的。使用的主要算法是基音同步叠加(PSOLA)算法。

  韵律调整好之后,下一步就是要把这些波形拼接起来,使之成为连续语音。这里需要注意的问题是,波形的拼接处,那面出现波形的突变:形成音量或者静音段和有声段的突然转变,出现“咔哒咔哒”的噪声,影响合成效果。因此这里需要使用平滑算法,减少这些现象的影响。

 

原文地址:https://www.cnblogs.com/gstblog/p/9596721.html