Kaldi语音识别工具箱介绍

对Kaldi的设计进行描述,Kaldi是一个免费的,开源的工具箱用于语音识别研究。Kaldi提供基于有限状态变换器(finite-state transducers,使用OpenFst)的语音识别系统,以及详细的文件和脚本用于构建完整的识别系统。

Kaldi使用C++编写,核心库支持任何语音上下文大小的建模,子空间的高斯混合模型(SGMM)以及标准的高斯混合模型的声学模型建模,以及所有经常使用的线性变换和仿射变换。

Kaldi源码以Apache License V2.0协议发布。

Kaldi的目标:具有现代和灵活的代码,便于理解,协议和扩展。使用类Unix系统和Microsoft Window剩下的通用的编译工具编译即可。

关于自动语音识别(Automatic speech recognition,ASR)的研究者可以有多种开源工具箱的选择用于构建一个识别系统。著名的有:HTK,Julius(这两种C语言实现),Sphinx-4(Java语言识别),RWTH ASR工具箱(C++实现)。

但是,对于Kaldi的特定需要: finite-state transducer(FST),扩展的线性代数支持和non-restrictive license,导致Kaldi的开发。

Kaldi包含的重要特性:

- 集成Finite State Transducer(编译OpenFst工具箱,作为一个库)

- 扩展的线性代数支持

- 可扩展设计

- 开源的license —— Apache v2.0, 最小限制的开源协议

- 完整的方法 —— Kaldi提供了完整的方法用于构建语音识别系统

- 周密的测试 —— 基本上所有的代码都有相应的测试例程

Kaldi的主要用途是声学模型研究,因此,最相近的竞争者是HTK和RWTH ASR工具箱(RASR)。Kaldi相对与这些竞争者的主要优势:现代的,灵活的,清晰的结构化代码以及比较好的WFST和数学支持,同时使用的开源license比HTK和RASR更开放。

按如下步骤对Kaldi工具箱进行介绍

1. Kaldi代码结构和设计选择,包括语音识别系统的各个部件介绍

2. 特性提取介绍

3. 声学模型

4. 语音决策树

5. 语言模型

6. 解码器(decoder)

7. 简要介绍基准结果

原文地址:https://www.cnblogs.com/wxer/p/7468351.html