[编译原理读书笔记][第2章一个简单的语法制导程序

[编译原理读书笔记][第2章一个简单的语法制导程序]

标签（空格分隔）：未分类

本章内容是对本书第3章至第六章中介绍的编译技术的综合介绍.

通过将一个语句转换为三地址代码的过程来讲解
重点是:词法分析,语法分析和中间代码生成.
第7章,第8章将讲述如何将三地址代码转换为机器指令

2.1 引言

2.2:给出一个广泛使用的表示方法来描述语法,叫做上下文无关法或者BNF(Backus-Naur范式).
2.3:面向文法的编译技术:语法指导翻译
2.4:语法分析
2.5:一个中缀转后缀的过程
2.6:词法分析
2.8:构造语法树

2.2 语法定义

介绍一种用于描述程序设计语言语法的表示方法---"上下文无关法"或简称文法.被用于组织编译器前端.

何为上下文无关文法?
- V 总可以被字符w 自由替换,而无需考虑字符V出现的上下文
Java的if-else
文法

2.2.1 文法定义

一个上下文无关法(context-free grammar)由4个元素组成:

一个终结符号集合,有时也称做"词法单元".
一个非终结符号集合,有时也称做"语法变量"
- 每个非终结符号表示一个终结符号串的结合.(后面介绍)
一个产生式集合:表示某个构造的某种书写形式.
- 产生式头或左部: 非终结符号 .
- 一个箭头
- 产生式体或右部: 终结符号与非终结符号组成的序列
- 如果产生式头代表一个构造,那么产生式体代表该构造的一种书写形式.
指定一个非终结符号为开始符号

2.2.2 推导

根据文法推倒符号串时.首先从开始符号出发,不断地将某个非终结符号替换为该非终结符号的某个产生式的体.直到全部为终结符号.

可以从开始符号推倒得到的所有终结符号串的集合称为该文法定义的语言.

语法分析的任务

parsing的任务是: 接受一个终结符号串作为输入,找出从文法的开始符号推倒出该串的方法.
如果不能推倒出,则报告语法错误.
主要语法分析方法,在第四章中介绍

2.2.3 语法分析树

语法分析树用图形方法展现了从文法的开始符号推倒出对应语言中的符号串的过程.

image_1b0amdp20k8v13uaocb4q9mhj9.png-34.9kB

parse tree有以下性质

根节点的标号为文法的开始字符.
叶子节点为一个终结符号或 e
内部节点为一个非终结符号
如果非终结符号A它的子节点从左至右有X1,X2..XN,那么必然有产生式A->X1X2X3..XN.

例子

文法:

image_1b0amsage11291nvp1feg1b7t1varm.png-16kB

需要推倒的语句: 9 - 5 + 2

语法树:

image_1b0an8nfo1fr615s7108ocg017s313.png-10.7kB

一个文法的语言的另一个定义是任何能够由某颗语法分析树生成的符号串的集合.

为一个给点的终结符号串构建一颗语法分析树的过程称为对该符号穿进行语法分析

2.2.4 二义性

某些语法如果不严谨会产生二义性.比如将上述例子的语法改成

image_1b0anioej1op51p8a1apn1ml4g001g.png-10.9kB

那么对之前的终结符号串的解释可以用两种语法树

image_1b0anjlan104n1c762hk1io340o1t.png-24kB

前者的结果是6, 后者是2

显然有问题.所以一个好的文法不应该有二义性.

2.2.5 运算符结合性

左结合运算向左下端延伸
右结合运算向右下端延伸

image_1b0aoacvd4pi5tl1coe1ik91bgv2a.png-31kB

等号的文法:

image_1b0aoasea7a4mtbbc714ppari2n.png-6.9kB

2.2.6 运算符的优先级

结合性规则只能作用于同一级别的运算

当具有+,-,*,,(,)时的文法

image_1b0aoq9lp1i15lguqvkck9ikh34.png-131.1kB

factor不可被分开.
一个(不是因子)的term可能被高优先级的运算符*和/分开
一个expr可以被任意优先级分开
根据这种思想,我们可以用多个非终结字符来确定n个优先级的语法.

image_1b0aqplnf1ji662l1qq5gm51jqv3h.png-31.9kB

2.2.7 2.2节的练习

image_1b0atcjlj18bt18e819mamdr95b4b.png-25.3kB
从以下代码能看出如何增加一个优先级.

image_1b0atdu96ql11otvcr7vna14lg4o.png-14.2kB

2.3 语法指导翻译

语法制导翻译是通过向一个文法的产生式附加一些规则或程序片段而得到的.

image_1b0de43p41ble1f07aruluu1hu89.png-152kB

看不懂

2.3.1 后缀表示

image_1b0de644tkuls42gaq1jsv25qm.png-85.8kB

2.3.2 综合属性

image_1b0deqf3a15it13q22h8t4qe7n13.png-31.5kB

语法制导定义(syntax-directed definition)把每个文法符号和一个属性集合相关联,并且把每个产生式和一组语义规则(semantic rule)相关联,这些规则用于计算与该产生式相关联的属性值.
注释语法分析树:如果一颗语法分析树的各个结点上标记了相应的属性值,那么这颗语法分析树就称为注释语法分析树,简称注释分析树.
综合属性:如果某个属性在语法分析树结点N上的值由N的子节点和N本身的属性值确定,那么这个属性叫做综合属性
- 性质: 只需要对语法分析树进行一次自底向上的遍历,既可以算出属性的值.
5.1.1节将会讲述一种继承属性:继承属性在某个语法分析树的结点的值由其本身,兄弟,父节点属性值决定.

关于语法制导一个十分不错的例子

image_1b0dg18p01unu1m8vk6deiijm1t.png-237.5kB
image_1b0dg1m6r133f3521o1u164a1ira2a.png-22.8kB

2.3.3 简单语法制导定义

上述例子的语法制导定义具有以下重要性质:
image_1b0dgjn0a155b1n1f1pc510171uf62n.png-60kB

2.3.4 树的遍历

关于树的遍历就不再赘述了

image_1b0dgs91iupt1ogm14e81m4g1n3834.png-98.4kB

如果只有综合属性,和继承属性单一一种,那么求值问题很好解决,否则很难求值.

2.3.5 翻译方案(语法制导翻译方案)

之前上述的语法翻译的例子将字符串作为属性值附加在结点上,从而得到翻译结果.

我们来考虑一种不需要操作字符串的方法,通过运行程序片段,逐步生成相同的翻译结果.

语义动作

image_1b0fjmv381aqmrkm1vg418kh34u9.png-37.5kB

image_1b0fjr19o10kv1dq98dr1km6169m.png-18.8kB

例子

image_1b0fk7j9n12kl18r611j11dofbeo13.png-125.8kB
image_1b0fk82ne75mbh5g1q10ct1tse1g.png-30.9kB

2.4 语法分析

语法分析是决定如何使用一个文法生成一个终结符号串的过程.
本书将会介绍一种叫做递归下降的语法分析方法,该方法用于语法分析和实现语法制导翻译器.
- 下一节会给出一个完整实现例子的JAVA程序
- 4.9会介绍一种Yacc的工具直接根据方案生成一个翻译器.
对于任何上下文无关法,都能构造出一个O(n^3)的语法分析器,但是对于实际的语言设计,基本都是线性时间构造出来的.
大部分的语法分析方法可以分为两类: 自顶向上,自底向上.
- 这两个术语指的是语法分析节点的构造顺序.
- 在自顶向上语法,构造过程从根节点开始,逐步向叶子节点进行.
  - 更容易手工构造出高效的语法分析器
- 自底向上语法则相反
  - 可以处理更多种文法和翻译方案,所以文法生成语法分析器的软件工具常常使用这种.

2.4.1 自顶向下分析方法

image_1b0fp83cu1sdo15dbkvq16kpmmn1t.png-26.3kB

image_1b0fp98jmfvu1uf1f5m7nj1jot2a.png-74.1kB

向前看(lookahead)

输入中当前被扫描的终结符号通常称为向前看(lookahead)符号.
- 在开始时,向前看符号是输入串的第一个终结符号.

例子

image_1b0fpkp7c1f681t6r14jm1f3v1o6s2n.png-85.4kB

为一个非终结符号选择产生式是一个尝试并犯错的过程,我们首先选择一个产生式,如果这个产生式不合适将会进行回溯,再尝试另一个产生式.
预测语法分析的特殊情况不需要回溯.

2.4.2 预测分析法

递归下降分析方法(recursive-descent parsing)是一种自顶向下的语法分析方法,他使用一组递归过程来处理输入.

这里我们考虑递归下降方法的一个简单形式,称为预测分析法(predictive parsing)

在预测分析法中,各个非终结符对应的过程中的控制流可以由向前看无二义的确定.在分析输入串时出现的过程调用序列隐式地定义了该输入串的一颗语法分析树.

image_1b0fs0vv4sesg8v15553mgpi434.png-83kB

FIRST(α)

image_1b0fs7mithme1g5r1ek1bgt1ju3h.png-54.5kB

关于计算的方法在4.2.2中介绍
预测分析法要求时

2.4.3 何时使用ε 产生式

如果向前看符号不在其他产生式中,就用ε 产生式
更加深入了解何时使用ε 产生式,参见4.4.3节中关于 LL(1)文法的讨论.

2.4.4 设计一个预测分析器

当满足能够使用预测分析器时:
image_1b0g3jnt687o96f1ejikos14aj55.png-163.2kB

对于语法动作如何处理

2.4.5 左递归

image_1b0hdrlgfinv1vng11he1i2ktrg9.png-117.4kB

image_1b0he5elk1ubdjqgvrd19581kptm.png-11.7kB

左递归:
image_1b0he9j6f14s81iuh1oj31lo9o4j1g.png-2.1kB
image_1b0he96331r8a1plv1ptl14te13ng13.png-8.5kB

右递归:

image_1b0hea0emvq310ap3a116s31ris1t.png-3.8kB
image_1b0heafbt3m9l211vfu1t5u1afh2a.png-11.2kB

右递归对于左结合运算的翻译会变得困难
4.3.3节将考虑更一般的左递归形式

2.4.6 练习

image_1b0hend93ct91bch13ni1htrogq2n.png-21.9kB

(1)

void S(){
    swithch( lookahead )
    {
        case +:
        match(+);S();S();break;
        case -:
        match(-);S();S();break;
        case a;
        match(a);break;
        default: report("syntax error");
    }
}

(2)要注意最终的结果,并消除左递归

void S(){
if(lookahead == "("){
match("("); S(); match(")"); S();
}
}
```

(3)两个产生式的FIRST都是0，需要注意

void S()  
{  
    if(lookahead==0)  
    {  
         match(0);  
         if(lookahead!=1)  
            S();  
         match(1);  
    }  
    else  
    report("syntax error");  
}

2.5 简单表达式的翻译器

使用前三节技术,我们将使用Java语言编写一个语法制导翻译器.

image_1b0hi7bgj3oeusgv0410tlvii34.png-21.2kB

现在我们处于矛盾中:

一方面,我们需要一个能够支持翻译规约的文法;
另一方面,我们需要一个明显不同的能够支持语法分析过程的文法;
所以先使用易于翻译的文法,然后小心的转换,使之能够语法分析.

我们将消除2-21的左递归,得到一个适用于预测递归下降翻译器的文法.

2.5.1 抽象语法和具体语法

设计一个翻译器是,名为抽象语法树(abstract syntax tree)的数据结构是一个很好的起点.
语法分析树叫做具体语法树(concrete syn-tax tree),相应的文法叫做该语言的具体文法(concrete syntax)

2.5.2 调整翻译方案

2个左递归产生式和一个非左递归产生式 image_1b0hkndns1pv21md2lekmr5gbh3u.png-2.5kB

image_1b0hknrnuqtj13g21t7a19ga17gq4b.png-12.7kB

我们要转换的不只是终结符号和非终结符号,还包括内嵌动作.
嵌入在产生式中的语义动作在转换时被当做终结符号直接进行复制.

例子

image_1b0hlo1johu91qneo3g15pfc984o.png-4kB
image_1b0hlonm19901n6m1e4o7gh1h0m55.png-24.6kB
image_1b0hlp88draarppvkf16galcb5i.png-55.4kB

2.5.3 非终结符号的过程

image_1b0hltvgkb4ib84uvq1t1ruv25v.png-65.3kB

2.5.4 翻译器的简化

image_1b0hmj5qkl8u32u6uf142pov46p.png-31.2kB
image_1b0hmibbo1iej1ce814f4e717mh6c.png-42.2kB

2.5.5 完整代码

image_1b0hms7761hio1ac21nmq1klrcgn76.png-91.8kB
image_1b0hmsn5becq1rns1rkd15m3mrb7j.png-39.7kB

2.6 词法分析

image_1b0hnjlm0ani1dj01a8fdoc7db80.png-43.8kB

2.6.1 剔除空白和注释

image_1b0hnlr9suo21a3e1ms81u9k125s8d.png-26.2kB

统计行号有利于定位错误

2.6.2 预读

一般都会预读一些字符放在缓冲区.有两个好处

缓冲区的效率问题,csapp有介绍就不多说了
有利于词法分析,判断是>还是>=等
通常在简单的情况,只需要预读一个

本节的词法分析器会预读一个字符,本节中的词法分析器不变式断言如下:
当词法分析器返回一个词法单元时:

变量peek要么保存当前词法单元词素后的那个字符,要么保存空白

2.6.3 常量

image_1b0holjc77qufofeoj19c24a8q.png-30.7kB

当在输入流出现一个数位序列时,词法分析器将向语法分析器传送一个词法单元.

该词法单元包括终结符num和根据数位计算出来的值如:<num,31>

2.6.4 识别关键词和标识符

关键词(keyword):大多数程序使用for,do,if这样的固定字符串作为标点符号,或者用于某种构造,这些字符串加做关键词.
字符串还能作为标识符为变量,数组,函数等命名.
- 为了简化语法分析器,语言的文法通常把标识符当做终结符号处理.
关键词通常也满足标识符的组成规则,当将关键词作为保留字时,相对容易解决.

对于本节中的词法分析器

使用一个字符串表来保存字符串.

image_1b0l1vjkj40clof1ja912dv18kb9.png-97.5kB
image_1b0l2jl80mik2cjq031j2q11q9m.png-41kB

2.6.5 词法分析器

image_1b0l2t2bg17451o1k1vukq9j1clp13.png-39.8kB

image_1b0l3s14hbbe1jvi14jr1j0e1s5t1g.png-20.9kB
image_1b0l3sfnj4hc1ss614o01crc3q71t.png-18.3kB
image_1b0l3sn5u1jvkifiapijukk7q2a.png-17.8kB
image_1b0l3sshqtv7als1pe419373bo2n.png-47.8kB