一只小小麻雀——基于语法分析工具Gold开发的加减法解释器

麻雀虽小，五脏俱全！本文试图用最简单的示例覆盖最多的知识点。文中主要通过加减法器的设计来介绍基于Gold的解释器（关于解释器和编译器的区别联系见《儿子和女儿-解释器和编译器的区别与联系》）开发方法，不仅介绍了基于Gold的词法分析和语法分析，同时还介绍了如何在自动生成的基本骨架代码上来完成语义分析、解释执行和错误提示功能。

1.目标介绍：

　　首先说一下，我们开发的解释器究竟是面对什么语言呢？例子非常简单，只是整数的加减法而已，输入源语言如下所示：

　　1+2+3
　　1 +22+ 333+4+ 555

　　要求如下：

　　（1）输入为32位正整数的和或差的表达式，表达式中终结符的前后和中间可以有不可见字符。

　　（2）如果表达式正确，输出其结果，如下所示：

输入：1 + 2+ 3 - 4
输出：2

　　（3）识别词法错误和语法错误：

　　输入：1+ a+1+ 3+ 534
　　输出：0行3列位置的字符不应该为a

　　（4）识别语义错误。

输入：1+9999999123456789+123456789
输出：0行2列：数字太大，超过32位界限
输入：2123456789+123456789
输出：0行11列：和太大，超过32位界限
输入：1-2123456789-123456789
输出：0行2列：差太小，超过32位界限

2. 内容纲要：

　　结合GOLD的开发流程，我决定按如下提纲介绍：

　　Part 1：加减法器的词法分析和语法分析；

　　Part 2：文法表文件的生成与引擎的介绍；　　

　　Part 3：GOLD基本骨架源码的结构介绍；

　　Part 4：如何添加解释执行代码；

　　Part 5：实现错误提示功能（包括词法错误、语法错误、语义错误）；

　　Part 6：平凡小结——由简而繁

3.加减法器的词法分析和语法分析：

　　在前面介绍的Gold的开发方法（《【翻译】语法分析工具Gold介绍（2）——基本开发方法》）中，我们知道第一步需要做的事情是设计加减法器的设计文法，如下所示：

!大小写不敏感，开始符号位expression
"Case Sensitive" = True
"Start Symbol"   = <expression>
!终结符
Number = [123456789]{digit}*
!BNF产生式
<expression>         ::= <expression>'+'Number
                       　　　| <expression>'-'Number
                       　　　| Number

　　这个产生式文法入门相当容易，够直观。我不多解释，只说一点：在Gold文法中，不可见字符是默认被识别为分隔符的（比如1 2被识别为两个终结符‘1’和‘2’），一般不做理睬。如果你真要睬它，后面的骨架源码中有所介绍。

　　大家是不是觉得这个文法太简单了。在这里我不得不声明几句：

本文不深入讨论复杂的文法。一只蜂鸟和一只老鹰在生理构造上不会有根本上的不同。
Gold帮助用户屏蔽掉了文法规约的内部过程，大大方便了用户。如果不是这样，这多如繁星的语法分析工具要来何用？
本文不是去做一个C、C#、java的编译器或解释器，而是告诉你这样做的基本原理。若你真正明白了纸船浮在水上的原理，即便是钢铁巨轮也不仅仅是个梦想。
本文在小结中会提到一些深入的东东。

3.文法表文件的生成与引擎的介绍

　　什么是文法表文件？简单说来，文法表存储了语言产生式导出的所有移进规约表、字符表等等等信息。这里涉及到编译原理中的一些复杂理论。佛祖保佑，幸好我们有语法分析工具。

　　不同的文法表文件可以被一个通用的引擎来读取，以便解析不同的语言。比如，引擎如果读取Java语言所产生的文法表文件，就能解析Java语言编写的所有源码；引擎读取C#语言产生的文法表文件，就能解析C#语言编写的所有程序。

引擎以类库的形式存在，可以被用户所引用。

　　将文法保存到grm文件中，用软件Gold Builder打开，在测试成功后，选择Project=>Save the table，保存文法表文件（cgt格式），以后会被调用。

4.GOLD基本骨架源码的结构介绍

　　如何生成骨架源码？文法编译成功后，选择菜单Project=>Create the skeleton program，选择输出语言C#-Calitha engine Event based，输出文件保存为MyParser.cs。

　　Gold生成的源码的可读性非常高，这是我喜欢它的一个重要原因。下面主要介绍源码的组成。

　　4.1 终结符和非终结符的枚举定义：

    enum SymbolConstants : int
    {
        SYMBOL_EOF        = 0, // (EOF)
        SYMBOL_ERROR      = 1, // (Error)
        SYMBOL_WHITESPACE = 2, // (Whitespace)
        SYMBOL_MINUS      = 3, // '-'
        SYMBOL_PLUS       = 4, // '+'
        SYMBOL_NUMBER     = 5, // Number
        SYMBOL_EXPRESSION = 6 // <expression>
    };
    enum RuleConstants : int
    {
        RULE_EXPRESSION_PLUS_NUMBER = 0, // <expression> ::= <expression> '+' Number
        RULE_EXPRESSION_MINUS_NUMBER = 1, // <expression> ::= <expression> '-' Number
        RULE_EXPRESSION_NUMBER       = 2 // <expression> ::= Number
    };

　　简单明了，主要是为了后面的使用。

　　4.2 MyPasser类：

    public class MyParser
    {
        private LALRParser parser;//解析引擎
        public MyParser(string filename)//若干构造函数
        public MyParser(string baseName, string resourceName)
        public MyParser(Stream stream)
        private void Init(Stream stream)//初始化，这是在代码骨架中最关键的函数。
        public void Parse(string source)//解析函数
　　 //读取终结符，同时负责处理终结符在语义上的错误
        private void TokenReadEvent(LALRParser parser, TokenReadEventArgs args)
        //根据终结符创建对象，开发者主要修改的函数
　　   private Object CreateObject(TerminalToken token)
        //产生式规约，同时负责处理规约是可能出现的异常
　　  private void ReduceEvent(LALRParser parser, ReduceEventArgs args)
        //根据规约动作创建返回对象，此处添加解释执行代码或者用于生成目标代码的代码，开发者主要修改的函数
　　　public static Object CreateObject(NonterminalToken token)
　　  //当语言被识别为正确时，该函数被调用，此处可添加返回结果代码
        private void AcceptEvent(LALRParser parser, AcceptEventArgs args)
　　 //发生词法错误是被调用，此处添加词法错误提示代码
        private void TokenErrorEvent(LALRParser parser, TokenErrorEventArgs args)
　　 //发生语法错误时被调用，此处添加语法错误提示代码
        private void ParseErrorEvent(LALRParser parser, ParseErrorEventArgs args)
    }

4.3 一个联系所有组件的函数——MyParser.init()

        private void Init(Stream stream)
        {
　　　　//读取文法表文件
            CGTReader reader = new CGTReader(stream);
            parser = reader.CreateNewParser();
            parser.TrimReductions = false;
            parser.StoreTokens = LALRParser.StoreTokensMode.NoUserObject;
　　　　//将解析引擎的文法规约事件绑定到MyParser类中的事件处理函数ReduceEvent
            parser.OnReduce += new LALRParser.ReduceHandler(ReduceEvent);
　　　　//将解析引擎的终结符读取事件绑定到MyParser类中的事件处理函数TokenReadEvent
            parser.OnTokenRead += new LALRParser.TokenReadHandler(TokenReadEvent);
　　　　//将解析引擎的正确解析源语言事件绑定到MyParser类中的事件处理函数AcceptEvent
            parser.OnAccept += new LALRParser.AcceptHandler(AcceptEvent);
　　　　//将解析引擎的发生词法错误事件绑定到MyParser类中的事件处理函数TokenErrorEvent
            parser.OnTokenError += new LALRParser.TokenErrorHandler(TokenErrorEvent);
　　　　//将发生语法错误事件绑定到MyParser类中的事件处理函数ParseErrorEvent
            parser.OnParseError += new LALRParser.ParseErrorHandler(ParseErrorEvent);
        }

　　这个函数起到了中央枢纽的作用，将文法表文件、源语言、解析引擎、各个事件处理函数紧紧的联系在一起。

　　4.4　骨架源码的使用

　　在不破坏骨架源码的骨架结构的前提下，源码可以被任意的修改。当然也包括了MyParser的构造函数。

　　可以在任意C#项目中调用生成的解析器MyParser，当然别忘了将文法表文件（本例中是cal1.cgt）、引擎（本例中是Calithalib.dll和GoldParserEngine.dll）加入到C#项目中，还有.net版本应不低于2.0。

　　我建立了一个wpf项目，在GUI中调用解析器。代码如下：

     //读入文法表文件
     //tb2是一个文本控件，将其传入MyParser类，用于输出解析过程中的相关信息，比如错误信息和结果等等
　　//MyParser的构造函数已被修改，为的是引入文本控件tb2
　　MyParser parser = new MyParser(new FileStream("./Cal.cgt",FileMode.Open),tb2);
     //tb1是一个文本输入控件，tb1.Text表示输入源码
　　parser.Parse(tb1.Text);

5. 如何添加解释执行代码

　　5.1 自定义类型

　　对于源语言，通过语法分析和词法分析，在源语言被正确解析后，所有的工作就可以看成语法树规约的过程。在词法分析和语法规约的过程中，对于每一个树节点都可以构造一个对象。这就需要我们自己来构造相应的类。

　　对于加减法器的文法，需要构造的类有两个，分别针对产生式中的Expression、Numeric符号。

class Expression
    {
        public Location_ loc;
        public int e_value;//存储产生式规约时所计算的表达式的值
        public Expression(int e_value, int lineNr, int columnNr) {}
        public Expression(int e_value, Location_ loc) {}
    }
    class Numeric
    {
        public Location_ loc;
        public int n_value;//存储产生式规约时的数字的值
        public Numeric(int n_value, int lineNr, int columnNr {}
        public Numeric(int n_value, Location_ loc）{}
    }

　5.2 添加词法分析时的对象构造代码：

　　词法分析中，主要修改MyParser类中的函数为：public static Object CreateObject(NonterminalToken token)

　　该函数终结符识别对应的事件处理函数TokenReadEvent所调用。从CreateObject函数的定义可以看出，我们只需要对相应的终结符返回对象就可以了，加法器文法中只需要针对数字串返回Numeric对象。在CreateObject中添加如下代码：

        private Object CreateObject(TerminalToken token)
        {
            switch (token.Symbol.Id)
            {
　　　　　　……
                case (int)SymbolConstants.SYMBOL_NUMBER :
                //Number
                //todo: Create a new object that corresponds to the symbol
                //return null;
                return new Numeric( Convert.ToInt32(token.Text),token.Location.LineNr,token.Location.ColumnNr);
　　　　　　……
            }
            throw new SymbolException("Unknown symbol");
        }

　　5.3 添加语法分析时的对象构造代码：

　　词法分析中，主要修改MyParser类中的函数为：public static Object CreateObject(TerminalToken token)

　　该函数被语法规约所对应的事件处理函数ReduceEvent所调用。从CreateObject函数的定义可以看出，我们只需要对相应的产生式返回对象就可以了。在CreateObject中添加如下代码：

        public static Object CreateObject(NonterminalToken token)
        {
            switch (token.Rule.Id)
            {
                case (int)RuleConstants.RULE_EXPRESSION_PLUS_NUMBER:
                    {
                        Expression a_plus = token.Tokens[0].UserObject as Expression;
                        Numeric b_plus = token.Tokens[2].UserObject as Numeric;
                            return new Expression(a_plus.e_value + b_plus.n_value, a_plus.loc);
                    }
                case (int)RuleConstants.RULE_EXPRESSION_MINUS_NUMBER :
                    {
                        Expression a_minus = token.Tokens[0].UserObject as Expression;
                        Numeric b_minus = token.Tokens[2].UserObject as Numeric;
                            return new Expression(a_minus.e_value - b_minus.n_value, a_minus.loc);
                    }
                case (int)RuleConstants.RULE_EXPRESSION_NUMBER :
                    return new Expression(((Numeric)(token.Tokens[0].UserObject)).n_value,
                                            (token.Tokens[0].UserObject as Numeric).loc);
            }
            throw new RuleException("Unknown rule");
        }

　　5.4 解析完成事件——执行结果

　　在以上代码添加完成后，这时，语法解释器就已经基本完成了，它可以读入正确加法器语言，输出结果。结果在哪能看到呢？

　　加法器语言被正确解析后，事件处理函数AcceptEvent被调用，在该函数中可以添加输出结果代码

　　private void AcceptEvent(LALRParser parser, AcceptEventArgs args)
{
　　　　//ouputTB是传入到MyParser的文本控件
　　　　//args.Token.UserObject是产生式起始符号的所对应的用户对象。
　　　　outputTB.Text = (args.Token.UserObject as Expression).e_value.ToString();
　　}

　　看看输出结果截图：）

　　能看到结果了，可是还有事情要做：词法错误识别、语法错误识别、语义错误。So many……God save me！

6. 错误提示功能实现：

　　6.1 词法错误提示：

　　　　在自动生成的词法错误处理函数TokenErrorEvent中添加错误提示代码：

        private void TokenErrorEvent(LALRParser parser, TokenErrorEventArgs args)
        {
            //string message = "Token error with input: '"+args.Token.ToString()+"'";
            string position = "Location Line:"+args.Token.Location.LineNr+" Column:" + args.Token.Location.ColumnNr+"   ";
            string message = "Token error with input: '" + args.Token.ToString() + "'";
            //输出到GUI
            outputTB.Text = position + message;
        }

　　6.2 语法错误提示：

　　　　在自动生成的语法错误处理函数ParseErrorEvent中添加错误提示代码：

        private void ParseErrorEvent(LALRParser parser, ParseErrorEventArgs args)
        {
            string position = "Location Line:" + args.UnexpectedToken.Location.LineNr + " Column:" + 　　　　　　　　　　　　　　　　　　　　　　                                      args.UnexpectedToken.Location.ColumnNr + "   ";
            string message = "Parse error caused by token: '"+args.UnexpectedToken.ToString()+"'";
            //输出到GUI
            outputTB.Text = position+message;
        }

　　6.3 一个小扩展——语义错误提示：

　　关于语义分析，在自动生成的骨架代码中是没有的。恐怕任何一个语法分析工具都不可能替用户实现这种功能。语言符号终究只是符号，它的实际含义需要用户去定义。比如3”+“0，常识上说应该没有任何语义问题，然而”+“号在另一种语言中的实际含义也许就相当于四则运算中的除法，这是就出现问题了，分母为0。同一种文法表示的语言在不同的人眼中意义是不一样的，就像今天的骨感美女在唐朝也许就是绝对的丑女一样。因此语义错误只能由用户定义，无法由工具代劳。

　　在加减法器中，有几个语义上的规则需要满足：

数字不能超过32位整数的范围
数字之和不能大于32位整数的最大值
数字之差不能小于32位整数的最小值

　　为了确认错误的地址，需要保存错误的地址，于是创建Location_类，并为Numeric和Express类添加Location_属性。

　　为了检测计算是否超过32位整数范围，添加检测函数

//检查加法运算是否会超出范围
private static Boolean CheckSUM(int a, int b){}
//检查减法运算是否会超出范围
private static Boolean CheckDIFF(int a, int b){}

　　修改CreateObject(NonterminalToken token)函数中的规约代码，添加语义分析代码：

                case (int)RuleConstants.RULE_EXPRESSION_PLUS_NUMBER:
                    //<expression> ::= <expression> '+' Number
                    {
                        Expression a_plus = token.Tokens[0].UserObject as Expression;
                        Numeric b_plus = token.Tokens[2].UserObject as Numeric;
                        if (CheckSUM(a_plus.e_value, b_plus.n_value))
                            return new Expression(a_plus.e_value + b_plus.n_value, a_plus.loc);
                        else
                            throw new Exception("the sum is too large or too small!");
                    }
                case (int)RuleConstants.RULE_EXPRESSION_MINUS_NUMBER :
                //<expression> ::= <expression> '-' Number
                    {
                        Expression a_minus = token.Tokens[0].UserObject as Expression;
                        Numeric b_minus = token.Tokens[2].UserObject as Numeric;
                        if (CheckDIFF(a_minus.e_value, b_minus.n_value))
                            return new Expression(a_minus.e_value - b_minus.n_value, a_minus.loc);
                        else
                            throw new Exception("the difference is too large or too small!");
                    }

　　现在一切ok了。能查出语义错误了。

7. 平凡小节

　　本文实现一个正整数的加减法器，实现了解释执行、词法错误提示、语法错误提示、语义错误提示等功能。

　　本例用C#实现，然而其意义应不止于此。如果是解释器，用C#开发可能执行慢一点，然而相比C#平台丰富的支持来说，应该值得；如果是编译器，由于任何一种语言可以用来开发编译器的前端，C#当然也在其中，所影响的只是编译的速度而已，对于编译出来的最终目标程序来说，执行速度没有差别。

　本文几乎覆盖了编译器前端的所有基本概念。

　　到这里有人可能要说了，这样一个简单的加减法器，很多概念都没有提到，比如分支语言、循环语句号，比如符号表，比如函数嵌套。
　　首先，分支语句、循环语句等过程语句只是控制语句中的一部分，跟加法器语句没有本质上不同。所不同的是，各种过程语句有它自己的特点，有着各自的解决技巧，比如分支语句就可以用栈来存储条件判断语句的值，这里就不细究了。
　　其次，函数嵌套，涉及到参数传递，用堆栈传值等等可以解决。
　　再次，符号表也涉及到不少编译的知识，比如作用域嵌套等等。
　　但是，总的来说，我认为上面那几点都只是单纯的技巧，拿本编译课本翻翻就好了。
　　还有，本文的目的还是介绍语法分析工具Gold的运用，语法分析生成工具没有提供自动语义分析的义务，也提供不了。本文中已经介绍了一种语义错误提示功能。所有复杂的语义，归根结底，都只是华丽的技巧，并不是高不可攀。只要了解了语义分析的实质，在课本的帮助下，一切复杂语义都是纸老虎，尽管这纸老虎还很不好折。

　　就简单的编译器和解释器来说，本文介绍的知识和方法应该够用了。如果要做一个复杂的编译器或解释器，比如C语言的编译器，那你还是去翻课本吧。

　　最后还是向大家推荐一下语法分析工具Gold，自动生成的代码的可读性太好了。其实我写这篇文章甚至比我学习Gold的时间还长……

源码下载：/Files/sword03/Cal_Parser.rar