Zend读码笔记(1)-双向链表

Zend 读码笔记 (1)  zend_llist 双向链表

版本:php 7.1.4

阅读著名的开源项目源码确实不是一件容易的事情,而且自身水平未到,未必能明白每一个细节实现的优劣;但是读起来确实有味,这些作为学习的笔记,也和大家一起分享了。水平有限,有错误的或者模糊的或者我没理解到没提到的,欢迎指正和补充。

zend引擎所使用的链表是一个双向链表。在Zend工程中,这个链表不再是数据结构书本上的“玩具实现”,而是确实作为Zend引擎的一个基础数据结构模块,嵌入在Zend的各个角落。因此,除了数据结构本身的特性,还做了很多优化和扩展,还规划了非常好的接口以供各个模块之间的耦合。

在 zend_llist.h 中,定义了如下的链表结点的原型:

1 typedef struct _zend_llist_element {
2     struct _zend_llist_element *next;
3     struct _zend_llist_element *prev;
4     char data[1]; /* Needs to always be last in the struct */
5 } zend_llist_element;

这个同普通的链表结点没有太大的区别,只是最后一个字段 char data[1] 较为特殊,通过柔性数组构成了一个变长结构体。GCC是支持零长度数组这一特性的,然而某些C编译器不支持零长度的数组,因此这里为了可移植性采取了折中的做法,即声明长度为1,然后再使用时,对其长度减去1,就得到和直接声明 char data[0] 的同样的效果了。至于为啥要用变长结构体,可能是考虑减少一次空间分配,减少了内存碎片,同时连续的内存地址是cache friendly的,进而提升性能。

接下来还有一个结构体定义,定义了链表本身的相关属性:

1 typedef struct _zend_llist {
2     zend_llist_element *head;
3     zend_llist_element *tail;
4     size_t count;
5     size_t size;
6     llist_dtor_func_t dtor;
7     unsigned char persistent;
8     zend_llist_element *traverse_ptr;
9 } zend_llist;

为了泛型化,需要额外储存链表中数据类型的大小,因此定义了size_t 的 size 。persistent 貌似是与空间分配和垃圾回收相关的;dtor 是元素的析构函数,虽然C是面向过程的,但是思想还是可以通用的嘛。头尾指针和当前的遍历指针,用额外的一点空间换取操作时的简单化,是值得的。

除此之外,zend_llist.h 中还定义了一些函数指针,比如元素的比较,对结点里的元素应用某些操作,等等,作为接口。还有导出的函数原型声明,就不列出了。

下面重点就是 zend_llist.c 具体的实现部分了。

作为一个基础的数据结构,一些常规的routine就不写了,在任意一本数据结构教材上都可以找得到。

zend_llist_add_element 这个函数是将新的元素插入链表的操作,默认将元素插入尾部。而 zend_llist_prepend_element 也是将新的元素插入链表的操作,只不过是头插入法。链表本身插入没什么好说的,也就是这里元素的具体存储方式有点特别,需要单独看一下:

 1 ZEND_API void zend_llist_add_element(zend_llist *l, void *element)
 2 {
 3     zend_llist_element *tmp = pemalloc(sizeof(zend_llist_element)+l->size-1, l->persistent);
 4     /*    pemalloc是zend自己的空间配置器,作用相当于普通的库函数malloc    
 5           申请的大小为结构体的大小和内容本身的大小
 6           因为data占用了1个byte,因此需要最后减去1                              */  
 7     /*    下面是双向链表的插入过程,
 8           这里额外维护的tail指针和普通的带头链表的head处理方法相类似    */
 9     tmp->prev = l->tail;
10     tmp->next = NULL;
11     if (l->tail) {
12         l->tail->next = tmp;
13     } else {
14         l->head = tmp;
15     }
16     l->tail = tmp;
17     /*    利用memcpy函数复制元素的内容.
18           这里可以很清楚的看到变长结构体的最后一个字段如何使用.*/
19     memcpy(tmp->data, element, l->size);
20     ++l->count;
21 }            

这个函数也演示了对于变长结构体最后一个元素如何去使用。在变长结构体中,最后一个元素定义为0长度或者1长度。其实定义为任何长度都可以,只要所分配的可用空间总大小不出错就可以,只不过0更符合它叫“变长”的特点。此时 data 就当作一个指向 char 的指针来用就可以了。对于 memcpy 直接复制元素这个处理方法而言,非常简单实用,而且库中的 memcpy 的优化往往也是非常到位。 memcpy 是不会被inline的,也就是说,在小数据(内置数据类型)复制时,function call本身的开销会比较大,相比于内置的“=”(直接寄存器赋值)运算符来说。当然C++的class重载的“=”就不好说了,本质还是函数调用,不一定可以inline的,或者inline的副作用更大。所以这种方法处理内置的数据类型,还是不大好用的。

zend_llist_del_element 删除元素。本身没什么好说的,就是函数指针这个东西对于像我这样的新手而言确实很冷门,但是很实用。

 1 ZEND_API void zend_llist_del_element(zend_llist *l, void *element, int (*compare)(void *element1, void *element2))
 2 {
 3     zend_llist_element *current=l->head;
 4     while (current) {
 5         if (compare(current->data, element)) {
 6             DEL_LLIST_ELEMENT(current, l);
 7             break;
 8         }
 9         current = current->next;
10     }
11 }

销毁整个链表也很简单,注意要手动通过函数指针调用节点里元素的析构函数,然后调用空间配置器的 pefree 释放内存空间,确实没C++的 delete 省心。不过记得Meyer在Effective C++书中也看到过,有时候C++项目也要自己重载delete的,而且在STL源码剖析中提到,STL也是自己实现了一套空间配置器,所以这样来看手工进行析构+释放内存也是不足为奇的。

 1 ZEND_API void zend_llist_destroy(zend_llist *l)
 2 {
 3     zend_llist_element *current=l->head, *next;
 4     while (current) {
 5         next = current->next;
 6         if (l->dtor) {
 7             l->dtor(current->data);
 8         }
 9         pefree(current, l->persistent);
10         current = next;
11     }
12     l->count = 0;
13 }
 至于zend_llist_copy,就是把一个链表中的所有组成全部复制到另外一个链表中,理解上相当于C++中重载了“=”运算符。只不过实现方式,并不同往常的“复制”概念一样。
这里有一个很容易犯的错误,就是带指针的结构体进行复制,一定要注意处理其指针的指向。有些时候将带指针的结构体写入文件,也是同样的道理。

 1 ZEND_API void zend_llist_copy(zend_llist *dst, zend_llist *src)
 2 {
 3     zend_llist_element *ptr;
 4     /*    假定新链表没有被初始化.    */
 5     zend_llist_init(dst, src->size, src->dtor, src->persistent);
 6     ptr = src->head;
 7     /*    直接用add_element函数代替memcpy进行复制.
 8           因为memcpy复制整个结点,也会复制其指针.
 9           复制完了再修改指针的指向,效率未必更高.
10           反而让代码的复杂程度增加,看起来更凌乱.        */
11     while (ptr) {
12         zend_llist_add_element(dst, ptr->data);
13         ptr = ptr->next;
14     }
15 }

 随后有两个函数,用来给链表的元素应用某些操作。这不是一个抽象的数据结构必须要有的routine,但是在某些实际项目中是必要的。同样是使用了函数指针作为接口,看来函数指针对于C来说确实是非常重要的东西。就放一下zend_llist_apply_with_del,zend_llist_apply是其简化版就不列出了

 1 ZEND_API void zend_llist_apply_with_del(zend_llist *l, int (*func)(void *data))
 2 {
 3     zend_llist_element *element, *next;
 4     element=l->head;
 5     while (element) {
 6         /*    保存临时的next指针,因为删除后本身就失效了.    */
 7         next = element->next;
 8         if (func(element->data)) {
 9             DEL_LLIST_ELEMENT(element, l);
10         }
11         element = next;
12     }
13 }

下面对链表的排序就是非常有意思的地方。这里首先定义了一个swap函数,用来处理指针的交换。在C中交换变量的值,需要通过指针来实现;而交换指针,显然就需要“指针的指针”来实现了。

1 static void zend_llist_swap(zend_llist_element **p, zend_llist_element **q)
2 {
3     zend_llist_element *t;
4     t = *p;
5     *p = *q;
6     *q = t;
7 }

完成swap这个准备工作以后,就正式进入了sort的环节。其实一开始我也在纠结为什么swap不是交换数据,而是交换的指针。按照传统的想法,对链表进行排序,可以通过比较后交换数据来解决,但是这里交换了指针,说明不是这条路;或者,也可以比较后调节指针的指向,但是这里直接简单交换指针显然也不符合这种想法的。

对数组基于比较的排序,有着下界O(nlgn)的时间复杂度,但是无论是快速排序、归并排序、堆排序,都是要基于数组可以随机寻址这一操作的,对于链表而言不大容易实现;因此链表通常使用O(n2)的,比如插入排序,来完成。

基于上面的疑惑,Zend所实现的排序确实让我感到眼前一亮。它首先创建一个数组,而后将所有结点的指针放入这个数组,因而便可以用这些nlgn的算法对数组排序;当然排序完成了,指针的指向也错乱了,下面就是根据有序性来恢复指针指向的步骤了。因为数组是有序的,所以只要依次将结点挂在已有的链表尾部就可以了,非常简单。

所以这个算法整体的时间复杂度取决于中间调用的sort的时间复杂度,而此处的sort作为通用排序算法,很容易使用快速排序来达到O(nlgn)的期望时间。常数可能稍微大一点(在空间分配和回收上)。

顺便一提的就是STL也可以利用iterator作为接口调用sort函数,从而对链表进行排序。这说明了基础数据结构的设计一定要处理好和其他模块的通用接口。


 1 ZEND_API void zend_llist_sort(zend_llist *l, llist_compare_func_t comp_func)
 2 {
 3     size_t i;
 4     zend_llist_element **elements;
 5     zend_llist_element *element, **ptr;
 6     if (l->count <= 0) {
 7         return;
 8     }
 9     /*    将所有结点的指针单独以连续数组的方式存储.    */
10     elements = (zend_llist_element **) emalloc(l->count * sizeof(zend_llist_element *));
11     ptr = &elements[0];
12     for (element=l->head; element; element=element->next) {
13         *ptr++ = element;
14     }
15     /*    调用自己实现的sort函数进行排序.    */
16     zend_sort(elements, l->count, sizeof(zend_llist_element *),
17             (compare_func_t) comp_func, (swap_func_t) zend_llist_swap);
18     /*    恢复链表的所有结点的指针指向.    */
19     l->head = elements[0];
20     elements[0]->prev = NULL;
21     for (i = 1; i < l->count; i++) {
22         elements[i]->prev = elements[i-1];
23         elements[i-1]->next = elements[i];
24     }
25     elements[i-1]->next = NULL;
26     l->tail = elements[i-1];
27     /*    释放临时构造的数组.    */
28     efree(elements);
29 }

 

原文地址:https://www.cnblogs.com/ggggg63/p/6852937.html