语音识别GMM-HMM

总体结构是： 状态组成音素，音素组成单词，单词构成句子。

其中前面把帧识别成状态（难点），可以当做gmm做的，也可用用其他算法模型。第二步，把状态组合成音素。第三步，把音素组合成单词。后面都是hmm做的

通过句子，然后分词，然后分成每个音素，在隐马尔科夫（HMM）模型中一般用3-5个上述的单元表示一个音素。简单的理解就是我们每个音素的均值和方差矩阵知道，通过我们的句子我们也知道每个音素间的转移概率矩阵。当然，这些是HMM里的事情。提取特征后的第一步就完成了，简单的说就是为了拟合多维高斯函数。

可以当做gmm做的