Antlr学习笔记1

今天，和师兄合作完成的基于Eclipse的文本编辑器插件的基本功能已经实现了。在词法语法的分析上做得还不是特别好，所以准备学习Antlr以加强我们的文本编辑器插件的词法语法分析能力。今天先对Antlr做一个简单的介绍。

1 ANTLR简介

ANTLR—Another Tool for Language Recognition，其前身是PCCTS，它为包括Java，C++，C#在内的语言提供了一个通过语法描述来自动构造自定义语言的识别器（recognizer），编译器（parser）和解释器（translator）的框架。ANTLR可以通过断言（Predicate）解决识别冲突；支持动作（Action）和返回值（Return Value）来；更棒的是，它可以根据输入自动生成语法树并可视化的显示出来（这一点我将在下面的例子中演示）。由此，计算机语言的翻译变成了一项普通的任务—在这之前YACC/LEX显得过于学院派，而以LL（k）为基础的ANTLR虽然在效率上还略有不足，但是经过近些年来的升级修改，使得ANTLR足以应付现存的绝大多数应用。感谢Terence Parr博士和他的同事们十几年来的出色工作，他们为编译理论的基础和语言工具的构造做了大量基础性工作，也直接导致了ANTLR的产生。

1.1 词法分析器（Lexer）

词法分析器又称为Scanner，Lexical analyser和Tokenizer。程序设计语言通常由关键字和严格定义的语法结构组成。编译的最终目的是将程序设计语言的高层指令翻译成物理机器或虚拟机可以执行的指令。词法分析器的工作是分析量化那些本来毫无意义的字符流，将他们翻译成离散的字符组（也就是一个一个的Token），包括关键字，标识符，符号（symbols）和操作符供语法分析器使用。

1.2 语法分析器（Parser）

编译器又称为Syntactical analyser。在分析字符流的时候，Lexer不关心所生成的单个Token的语法意义及其与上下文之间的关系，而这就是Parser的工作。语法分析器将收到的Tokens组织起来，并转换成为目标语言语法定义所允许的序列。

无论是Lexer还是Parser都是一种识别器，Lexer是字符序列识别器而Parser是Token序列识别器。他们在本质上是类似的东西，而只是在分工上有所不同而已。

1.3 树分析器 (tree parser)

树分析器可以用于对语法分析生成的抽象语法树进行遍历，并能执行一些相关的操作。

1.4 ANTLR

ANTLR将上述结合起来，它允许我们定义识别字符流的词法规则和用于解释Token流的词法分析规则。然后，ANTLR将根据用户提供的语法文件自动生成相应的词法/语法分析器。用户可以利用他们将输入的文本进行编译，并转换成其他形式（如AST—Abstract Syntax Tree，抽象的语法树）。

其官方网站为： http://www.antlr.org/