漫谈 C++ 虚函数的实现原理

文中讲述的原理是推理和探讨，和现实中的实现不一定完全相同。

C++ 的虚函数，编译器会生成一个虚函数表。

虚函数表，实际上是编译器在内存中划定的一块区域，用于存放类的虚函数的 override 实现的函数指针。

就是说，如果类对于基类的虚函数 override 了，那么 override 的函数的函数指针就会被记录到虚函数表里。

程序在运行时会查找虚函数表，找到 override 的函数，然后调用 override 的函数，这样就实现了调用子类实现的函数，实现了 “多态” 。

虚函数表是一个线性表，这样可以快速的访问。

访问线性表的时间复杂度是 O(1) 。

相对于普通的函数调用，虚函数的调用多了一次查找虚函数表的工作，相当于多了一次寻址，所以效率会更低一点。

C++ 编译器会为每个成员（类函数字段）指定一个连续的数字编号作为 ID 。

用连续的数字编号作为 ID 是为了可以以线性表的方式快速检索。

虚函数表由 2 个线性表组成。

等，我下面把线性表称为数组好了。

虚函数表由 2 个数组组成。

数组 1 是类表，保存类的实现函数表的地址。实现函数就是 override 了虚函数的函数。

数组 2 是实现函数表，保存类的实现函数的函数指针。

假设有 3 个类， A 、 B 、 C ，那么编译器会给这 3 个类分别指定 ID 为 0 、 1 、 2 。

在数组 1 （类表）里，就会 3 个元素，我们用伪码来表示好了：

类表 [ 0 ] = A 类的实现函数表的地址

类表 [ 1 ] = B 类的实现函数表的地址

类表 [ 2 ] = C 类的实现函数表的地址

这样，用类的 ID 作为下标（index）来访问类表，就可以取得该类的实现函数表的地址。

实现函数表我们也可以用伪码来表示，假设 A 类里有 Hello() 、 Thank() 、 Goodbye() 3 个 override 了基类虚函数的实现函数，那么，编译器会给这 3 个实现函数分别指定 ID 为 0 、 1 、 2 。这里只会给实现函数指定 ID ，不会把其它普通函数包括进来。

实现函数表会是这样：

实现函数表 [ 0 ] = Hello() 的函数地址

实现函数表 [ 1 ] = Thank() 的函数地址

实现函数表 [ 2 ] = Goodbye() 的函数地址

这样，用实现函数的 ID 作为下标（index）来访问实现函数表，就可以取得这个实现函数的地址。

编译的时候，对于普通函数的调用，会直接编译成 “函数地址 -> 调用” 这样的目标代码，

对于虚函数，则会编译成 “根据当前对象的类 ID 和函数 ID -> 查找虚函数表 -> 找到实现函数地址 -> 调用” 这样的目标代码。

从上面的原理看到，查找虚函数表本身就需要 2 次寻址，查找 2 个线性表（数组）。

同时，也可以看到，对于不需要 override 的函数，不要声明为虚函数，因为虚函数会增加查找虚函数表的时间花费，性能比普通函数调用更低一点。

当然，编译器可能会作一些优化，比如对于能在代码中明确判断出对象类型的情况，即使是虚函数调用，也会编译成和普通函数一样的处理方式 “函数地址 -> 调用” ，即要调用的函数地址在编译时就确定了。

那什么是编译时不能确定对象类型的情况？比如工厂方法。

编译时，对于虚函数，编译器会检查类是否进行了 override，如果 override 了，则将实现函数列入虚函数表，如果没有 override，就查找上一层父类是否 override 了，如果 override 了，则将实现函数列入虚函数表，如果没有 override，就继续查找上一层父类，以此递推，直到声明这个虚函数的父类。如果在整个继承层级中都没有 override 这个虚函数，则不会将这个虚函数列入虚函数表，当然也不会给这个虚函数指定虚函数 ID 。所有子类对象对这个虚函数的调用会被编译成 “声明这个虚函数的父类里这个虚函数的函数地址 -> 调用” 方式，这种情况和普通函数是一样的了。

我们再来谈谈 “后期绑定” 。

我们先说说 “动态绑定” 。在 Javascript 里，对象和函数可以任意的绑定，所以叫 “动态绑定” 。

对于查找虚函数表的做法，是在运行时才决定具体要调用的函数，相当于运行时才给对象绑定函数，所以叫 “后期绑定” （我印象中好像是这么叫的）。

漫谈 C++ 虚函数 的 实现原理

漫谈 C++ 虚函数的实现原理