Kaldi语音识别工具箱介绍

对Kaldi的设计进行描述，Kaldi是一个免费的，开源的工具箱用于语音识别研究。Kaldi提供基于有限状态变换器(finite-state transducers，使用OpenFst)的语音识别系统，以及详细的文件和脚本用于构建完整的识别系统。

Kaldi使用C++编写，核心库支持任何语音上下文大小的建模，子空间的高斯混合模型（SGMM）以及标准的高斯混合模型的声学模型建模，以及所有经常使用的线性变换和仿射变换。

Kaldi源码以Apache License V2.0协议发布。

Kaldi的目标：具有现代和灵活的代码，便于理解，协议和扩展。使用类Unix系统和Microsoft Window剩下的通用的编译工具编译即可。

关于自动语音识别（Automatic speech recognition，ASR）的研究者可以有多种开源工具箱的选择用于构建一个识别系统。著名的有：HTK，Julius（这两种C语言实现），Sphinx-4（Java语言识别），RWTH ASR工具箱（C++实现）。

但是，对于Kaldi的特定需要： finite-state transducer(FST)，扩展的线性代数支持和non-restrictive license，导致Kaldi的开发。

Kaldi包含的重要特性：

- 集成Finite State Transducer（编译OpenFst工具箱，作为一个库）

- 扩展的线性代数支持

- 可扩展设计

- 开源的license —— Apache v2.0, 最小限制的开源协议

- 完整的方法 —— Kaldi提供了完整的方法用于构建语音识别系统

- 周密的测试 —— 基本上所有的代码都有相应的测试例程

Kaldi的主要用途是声学模型研究，因此，最相近的竞争者是HTK和RWTH ASR工具箱（RASR）。Kaldi相对与这些竞争者的主要优势：现代的，灵活的，清晰的结构化代码以及比较好的WFST和数学支持，同时使用的开源license比HTK和RASR更开放。

按如下步骤对Kaldi工具箱进行介绍

1. Kaldi代码结构和设计选择，包括语音识别系统的各个部件介绍

2. 特性提取介绍

3. 声学模型

4. 语音决策树

5. 语言模型

6. 解码器（decoder）

7. 简要介绍基准结果