bison

BNF

巴科斯范式(BNF: Backus-Naur Form 的缩写)是由 John Backus 和 Peter Naur 首先引入的用来描述计算机语言语法的符号集。

在BNF中，双引号中的字("word")代表着这些字符本身。而double_quote用来代表双引号。

在双引号外的字（有可能有下划线）代表着语法部分。

< > : 内包含的为必选项。
[ ] : 内包含的为可选项。
{ } : 内包含的为可重复0至无数次的项。
| : 表示在其左右两边任选一项，相当于"OR"的意思。
::= : 是“被定义为”的意思或者单一的冒号
"..." : 术语符号
[...] : 选项，最多出现一次
{...} : 重复项，任意次数，包括 0 次
(...) : 分组

| : 并列选项，只能选一个

下面是是用BNF来定义的Java语言中的For语句的实例：

for (initialization; termination;
     increment) {
    statement(s)
}

BNF定义如下：

FOR_STATEMENT ::= 
    "for" "(" ( variable_declaration  | 
  ( expression ";" )  |  ";"  )
      [ expression ] ";"
      [ expression ]  ";"
     ")" ( statement | "{" statement "}" )

BNF处理1*2 + 3*4 +5简单的算术表达式：

<exp> ::= <factor> 
    | <exp> + <factor>
<factor> ::= NUMBER
    | <factor> * NUMBER

exp被定义为是一个factor或者factor+exp

factor被定义是NUMBER或者factor*NUMBER

例子1：

%{                                                                                                                           
#include <stdio.h>
%}

/*声明token*/
%token NUMBER
%token ADD SUB DIV MUL ABS 
%token EOL 

%%
calclist: /*空规则*/
    | calclist exp EOL { printf("= %d
",$2); }
    ;

exp: factor
   | exp ADD factor { $$ = $1 + $3; }
   | exp SUB factor { $$ = $1 - $3; }
   ;

factor: term
   | factor MUL term { $$ = $1 * $3; }
   | factor DIV term { $$ = $1 / $3; }
   ;

term:NUMBER
    | ABS term { $$ = $2>0 ?  $2 : -$2; }
    | "+" term { $$ = $2; }
    ;

%%
int main(int argc, char ** argv)
{
    printf(">");
    yyparse();
    return 0;
}

yyerror(char *s) 
{
    fprintf(stderr,"error:%s
",s);
}

bison程序包括与flex程序相同的三个部分结构：声明部分、规则部分、C代码部分。

1、声明部分：

声明部分包含了会被原样拷贝到目标分析程序开头的C代码，同样也通过%{和%}来声明。

%token记号声明，以便于告诉bison在语法分析程序中的记号的名称。通常，记号总是使用大写。

任何没有声明为记号的语法符号必须出现在至少一条规则的左边（左边表示规则的定义）

2、规则部分：

简单的BNF定义的规则。bison使用单一的冒号而不是::=，分号被用来表示规则的结束。

在flex中每个规则之后，使用花括号括起。

bison会自动分析语法，记住每条被匹配的规则，所以动作代码只需要维护每个语法符号关联的语义值。

bison语法分析器也执行一些额外的动作，例如创建数据结构以便后续使用。

第一条规则左边的语法符号是语法起始符号(start symbol)，整个输入必须被它匹配。

每个bison规则中的语法符号都有一个语义值，目标符号（冒号左边的语法符号）的值在动作中代码用$$代替，

右边语法符号的语义值依次为$1,$2，直到这条规则的结束。当词法分析器返回记号时，记号值总是存储在yyval里，

其他语法符号的语义规则在语法分析器的规则里进行设置，例如本例子的 factor、term和exp符号的语义值就是它们所

描述的表达式值。

例子中，头两条规则定义了calclist语法符号，通过循环来读入用换行符结束的表达式并且打印结果。

calclist: /*空规则*/
    | calclist exp EOL { printf("= %d
",$2); }
    | calclist EOL { printf("> "); } /* blank line or a comment */                                                           
    ;

calclist的定义使用一种常见的双规则递归定义来实现一个序列或者列表：

第一个规则为空，不进行任何匹配

第二个规则添加一个项目到列表中，对应的动作是通过$2打印出exp的值

第三个规则实现输入空行

其余的规则实现计算器，带有操作符的规则（exp ADD factor 和ABS term）在语义值上进行相应的算术操作。

右边仅有一个语法符号的规则是组合文法，例如exp：factor，一种表达式exp就是一个因子factor。

如果一个规则缺少现实的动作，语法分析器将把$1赋予$$，这是i一个内部设定。

词法分析器程序

%option noyywrap
%{
#include "fb1-5.tab.h"
%}

%%
"+"     { return ADD; }
"-"     { return SUB; }
"*"     { return MUL; }
"/"     { return DIV; }

"|"     {return ABS; }
^[-+][0-9]+ { yylval = atoi(yytext); return NUMBER;}
[0-9]+  { yylval = atoi(yytext); return NUMBER;}


      {return EOL; }                                                                                                       
[ 	]   {}  
.       { yyerror("Mystery character=%c!",*yytext);}
%%

1、由于在语法分析中声明了token，故这里使用的话，需要进行引用，在声明部分添加include文件

2、返回记号的时候，记号对应的值是存储在yylval变量中

联合编译flex和bison程序

对应的makefile文件内容为：

fb1-5: fb1-5.l fb1-5.y
        bison -d fb1-5.y
        flex fb1-5.l
        gcc -o $@ fb1-5.tab.c lex.yy.c -lfl

bison 使用-d选项（用于定义文件）运行，创建fb1-5.tab.c和fb1-5.tab.h文件

flex创建lex.yy.c，然后将两者和flex的库文件编译在一起

测试结果

[root@typhoeus79 bison]# ./fb1-5 
>
> -5+10
= 5
-5*4+20
= 0

二义性文法：并不多见

语法分析为什么不写成这样？

exp:exp ADD exp
      | exp SUB exp
      | exp MUL exp
      | exp DIV exp
      | ABS exp
      | NUMBER
      ;

原因在于优先级和二义性。

分开的term、factor和exp的语法符号可以让bison首先处理ABS，接着是MUL和DIV，然后是ADD和SUB。

通常来说，一旦一种文法有不同的优先级，语法分析器就需要为每种优先级制定一条规则。

下面的文法如何？

exp： exp ADD exp
      |   exp SUB exp
      | factor;

factor和term部分相似

存在二义性。例如1-2+3的输入可能被分析为(1-2)+3，也可能被分析为1-(2+3)

如果一种文法是有歧义的，bison会报告冲突(conflicts)，并且标出针对给定输入哪儿会有两种不同的分析。

增加其他规则

支持小括号

词法解析中添加如下：

"("     { return OP; }
")"     { return CP; }

语法解析中添加：

term:NUMBER
    | ABS term { $$ = $2>0 ?  $2 : -$2; }
    | "+" term { $$ = $2; }
    | "-" term { $$ = -$2; } 
    | OP exp CP { $$ = $2;}

如果想支持如下计算，应该怎么搞呢？

>(10-2)+(-10+2)
= 0
>(100-2)*2
= 196
>(+10-2)
= 8
>10-(-10+10)  
= 10

需要词法分析，重点需要区分正常的加减号以及前缀加减号

%option noyywrap
%{
#include "fb1-5.tab.h"
int flag=1;
int flag2 = 1;

%}

%%
"+"     { 
            if(flag){
                flag = 1;
                //printf("ADD
");
                return ADD; 
            }else
            {
                flag2 = 1;
            }
        }
"-"     {
            if(flag){
                //printf("SUB
");
                flag = 1;
                return SUB;
            }else
            {
                //printf("Flag=%d,Here
",flag);
                flag2 = -1;
            }
        }
"*"     { return MUL; }
"/"     { return DIV; }
"("     {   flag = 0;
            //printf("OP
");
            return OP; }
")"     { 
            flag =1;
            flag2 = 1;
            //printf("CP
");
            return CP; }


"|"     {return ABS; }
^[-+][0-9]+ { yylval = atoi(yytext); return NUMBER;}
[0-9]+  { 
            if(flag)
                yylval = atoi(yytext);
            else{
                yylval = flag2*atoi(yytext);
                flag = 1;
            }
            //printf("NUMBER2=%d
",yylval);
            return NUMBER;}


      {return EOL; }                                                                                                       
[ 	]   {}  
.       { yyerror("Mystery character=%c!",*yytext);}
%%

【参考链接】

1、http://kb.cnblogs.com/page/189566/

2、http://code.google.com/p/msys-cn/wiki/ChapterFour