漫谈编译原理

文中讲述的原理是推理和探讨，和现实中的实现不一定完全相同。

编译原理给人的感觉好像一直都比较晦涩，其实编译原理没那么难啦。

编译原理分 3 步：

1 语法分析（文法分析）

2 生成目标代码

3 链接（Link）

关于语法分析，可以参考我之前写的一个项目《SelectDataTable》 https://www.cnblogs.com/KSongKing/p/9455216.html ，可以解析简单的 Sql 语句，用 Sql 查询 DataTable 里的资料。

生成目标代码的部分，还是可以参考 SelectDataTable …… 哈哈哈， SelectDataTable 里并没有生成目标代码， SelectDataTable 解析 Sql 的结果是一个表达式树，通过递归执行表达式树，来得到 Sql 的执行结果。

对于生成目标代码，可以递归执行表达式树来产生目标代码。

当然，要产生具体的目标代码，需要对硬件操作系统汇编熟悉。

但是，如果我们从广义的角度来定义编译原理的话，也许不需要了解硬件操作系统汇编也可以实现一个编译器哦 ~ ~ ！

比如，如果目标代码是 .Net IL ，那么，只要了解 .Net 平台就可以了。

又如，如果目标代码是 C#， …… 那么，只要了解 C# 就可以了。 ^^

事实上，我提议过用 C 语言作为中间语言来开发一个泛语言（跨语言）的编译器。参考《我发起了一个用 C 语言作为中间语言的编译器项目 VMBC》 https://www.cnblogs.com/KSongKing/p/9628981.html 。 VMBC 是受到 LLVM 的启发而产生的想法。

用 C 语言作为中间语言来开发编译器，意味着可以用 C 语言作为目标代码语言。

对于第 3 部分，链接，传统的教科书是这样说的 “目标代码还需要和外部的一些库链接 ……”，我一直都搞不懂这个外部的一些库是什么，不过就在前不久终于明白了。外部的一些库包括 3 类：

1 操作系统原语（或者叫系统调用）

2 基础库（就像 .Net 里的 System.XXX，当然操作系统提供的基础库可能比较原始）

3 第三方库，这个就很容易理解了，程序引用的 DLL 什么的

链接，本质上就是填入调用方法的入口地址，或者按格式留下空位，在运行时根据动态加载的库（比如 DLL），填入调用方法的入口地址。

前者是静态链接，后者是动态链接。当然静态链接还分为 2 种情况，一种只是填入入口地址，通常这些入口地址是固定的，比如操作系统的底层 API，一种是把库的代码也包含进入到目标代码里，作为可执行程序的一部分。

实际上通常讲的静态链接是指将库的代码包含到目标代码里。

上面说的，在编译时就填入库的调用方法的入口地址。

等，我们先捋一下，不然有点乱。

实际上我们说了 3 种情况：

1 在编译时将调用方法的入口地址填入目标代码，

2 在编译时将库的代码包括进入到目标代码里

3 在编译时按规则生成调用库方法的代码，当然也预留了可填入库方法入口地址的空位空间，在运行时告知操作系统要链接的库，操作系统返回库的入口地址，程序将入口地址填入预留的空位中，从此可以通过编译时生成的调用库方法的代码调用库方法。

这里说的库的入口地址是一个笼统的概念，前面我们提的是调用方法的入口地址，这里又变成了库的入口地址。

调用方法的入口地址 = 库的入口地址 + 方法在库里的偏移量

方法在库里的偏移量是在编译时可以确定的，根据库的元数据文件可以知道方法在库里的偏移量。库的元数据文件可以是 DLL 本身，也可以是 DLL 以外的一些文件，只包含接口的元数据文件， Win 32 下我记得有好几种非 DLL 的文件可以作为接口元数据文件，扩展名我记不得了。这些接口元数据文件就类似 C / C++ 语言里的头文件（Head File），只包含接口的定义，不包含具体的实现代码。

对于情况 1，这种情况实际中可能并不太可能使用。这种方法不像情况 2 一样将库的代码包括到目标代码里，也不像情况 3 一样在运行时才由操作系统告知库的地址，实际上，情况 1 比较像是早期的做法，透着原始朴素实验室的气质。

要使用情况 1 的方式，通常比较适用的是操作系统原语和基础库，但即便如此，在操作系统的不同版本和世代之间要保持兼容性也不容易。

所谓世代，比如 Win7 , Win8 , Win10 ，这样是 3 个世代，版本的话，比如 Win7.1 , Win7.2 , Win7.3 这样是不同的版本。

要在不同版本和世代之间都保持操作系统内核库的库地址不变，这个可能比较勉强。在实验室的时代倒是应该可以。

所以，现在实际在用的，应该是情况 2 和情况 3，这 2 种方式也就是现在所说的 “静态链接” 和 “动态链接” 。

我们来作一个假设，系统调用分为 2 种，一种是跨进程的，另一种是不跨进程的。跨进程的就是要切换到系统进程，不跨进程的不需要切换到系统进程，相当于是调用了一个函数。

对于跨进程的情况，需要设置一个系统中断，通过中断来切换到系统进程，不跨进程的，就是调用一个库函数。

但实际上，对于跨进程的情况，也可以通过调用库函数的方式来完成，在库函数里由库函数来设置系统中断。

这样的话，问题就归结到调用库函数了。

接下来，库函数应如何调用呢？

操作系统应该制定一个规则，让程序和库遵守，就是调用函数的规则。

函数如何调用？

函数就是堆栈（Stack）。假设 CPU 有 3 个寄存器 A B C ，那么，用 A 来保存栈顶， B 来保存本次函数调用在栈里的开始地址（也可以叫基址），那么，就可以开始函数调用了。

我的理解是，栈底是栈固定的一端，栈顶是栈活动的一端，可以压入（Push）和弹出（Pop）数据的一端。

假设栈底的地址是 100，

当第一个函数调用开始时，向栈里压入参数和局部变量，假设这些压入的数据占用了 10 个字节，那么，此时，栈顶（地址）是 110，本次调用的基址是 100 + 0 = 100 。直观的来看，第一个函数调用占用的栈空间是 100 - 109 这段地址空间。

当第二个函数调用开始时，同样向栈里压入参数和局部变量，假设压入的数据占用了 20 个字节，那么，此时，栈顶是 130，本次调用的基址是上次调用的栈顶，即第一次调用的栈顶 110 。直观的来看，第二个函数调用占用的栈空间是 110 - 129 这段地址空间。

以此递推。

如果栈顶超过了堆栈的最大 Size，就会抛出 “StackOverflow” 的异常。

这就是函数的调用方法，也是程序和库要共同遵守的规则。程序和库共同遵守了这个规则，程序就可以调用库，库也可以调用其它库。

但要在操作系统和各种语言的编译器之间都遵守这个规则，可能不太现实。比如操作系统和各种语言的编译器编译函数调用的时候都处理为寄存器 A 存栈顶，寄存器 B 存调用基址，这个太死板，实际中很难统一。

所以，我们还有方案二。 ^^

方案二其实是方案一的扩展版。

就是在调用库的时候，把当前函数的栈顶和调用基址传给库，实际上也是作为参数传给库，这样可以和其它参数一样，在堆栈里保存起来。接下来的执行就交给库，库同样将参数和局部变量压入栈，同时将新的栈顶和调用基址存入寄存器，库可以按照自己的规则来将栈顶和调用基址存入寄存器，比如可以用寄存器 C 来保存栈顶，寄存器 D 来保存调用基址。当库函数调用完成，返回主程序时，将作为参数保存在堆栈里的主程序函数的栈顶和调用基址返回给主程序，主程序将栈顶和调用基址按自己的规则保存回寄存器，比如寄存器 A 存栈顶，寄存器 B 存调用基址，然后就可以继续执行后面的代码了。

所以，现代操作系统的系统调用，大概都是基于动态链接库，而动态链接库的调用过程，就是上述的过程。

当然，也可能使用静态链接，上述过程对静态链接也适用。

同时，除了系统库以外，上述过程对第三方库的调用也适用。

所以，上述过程，也是编译器要处理的链接的过程。

漫谈 编译原理

漫谈编译原理