STL源码剖析（二）

容器rb_tree

Red-Black tree(红黑树)是平衡二叉搜索树（balanced binary search tree）中常被使用的一种。平衡二叉搜索树的特点：排列规则有礼 search 和 insert，并保持高度平衡—————无任何节点过深。

rb_tree提供“便利”操作及iterators。按正常规则（++ite）遍历，便能获得排序状态（sorted）。

因为rb_tree有一定的排序规则，所以我们不应该使用rb_tree的iterator改变元素值 编程层面并未禁止此事。 这样设计的原因是：rb_tree是set和map的底层实现依托，而map运行元素的 data 被改变，只有元素的 key 才是不可改变的。

rb_tree提供两种insertion操作：insert_unuque()和insert_equal()。前者表示节点的key一定可以在整个tree中独一无二，否则插入失败；后者表示节点的key可以重复。

template <class Key,
          class Value,
          class KeyOfValue,
          class Compare,
          class Alloc = alloc>
class te_tree{
protected:
    typedef __rb_tree_node<Value> rb_tree_node;
    ...
public:
    typedef rb_tree_node* link_type;
    ...
protected:
    size_type node_count;   //记录rb_tree的节点数量
    link_type header;       //头指针
    Compare key_compare;    //key的大小比较规则；应该是个function object
    ...
}

模板中Key＋value一起合成为value，KeyOfValue就是告诉模板如何确定value中的key是什么。

set/multiset

set/multiset是以rb_tree为底层结构，因此有 元素自动排序 的特性。排序是依据 key 进行的，而set/multiset元素的 value和key合一:value就是key。 同时，set/multiset提供遍历操作和迭代器。按照正常的++ite遍历，便能获得排序状态后的序列。

我们无法使用set/multiset的迭代器改变元素的值，会打乱rb_tree中的顺序。所以set/multiset使用的迭代器就是rb_tree的 const iterator ，目的就是禁止用户对元素进行赋值。

set元素的key必须独一无二，因此insert()用的是rb_tree的 insert_unique() ;multiset元素的key可以重复，因此insert()用的是rb_tree的 insert_equal() 。

set

template <class Key,
          class Compare = less<Key>,
          class Alloc = alloc>
class set {
    typedef Key key_type;
    typedef Key value_type;
    typedef Compare key_compare;
    typedef Compare value_compare;
private:
    typedef rb_tree<key_type,
                    value_type,
                    identity<value_type>,//VC6中没有identity，提供了一个与identity相似的操作
                    key_compare,
                    Alloc> rep_type;
    rep_type t;
public:
    typedef typename rep_type::const_iterator iterator;

...
};

set的所有操作，都转交给底层的t进行操作，所以可以将set看作一个容器适配器（container adapter）。

map/multimap

map/multimap以rb_tree为底层结构，因此有 元素自动排序 的特性。同时，set/multiset提供遍历操作和迭代器。按照正常的++ite遍历，便能获得排序状态后的序列。

我们无法使用map/multimap的迭代器改变元素的key（因为key有其谨慎的排序规则），但是可以用它来改变元素的data。因map/multimap内部将用户指定的 key type 设置为const, 以便能禁止用户对元素的key赋值。

map元素的key必须独一无二，因此insert()用的是rb_tree的 insert_unique() ;multimap元素的key可以重复，因此insert()用的是rb_tree的 insert_equal() 。

map

template <class Key,
          class T,
          class Compare = less<Key>,
          class Alloc=alloc>
class map {
public:
    typedef Key key_type;
    typedef T data_type;
    typedef T mapped_type;
    typedef pair<const Key, T> value_type;
    typedef Compare key_compare;
private
    typedef rb_tree<key_type, 
                    value_type, 
                    select1st<value_type>, //vc6中同样没有此函数，但提供了相似的功能
                    key_compare, 
                    Alloc> rep_type;
    rep_type t;
public:
    typedef typename rep_type::iterator iterator;

...
};

map独有的operator[]

map的[]操作符号用来返回指定key所对应的data, 如果key不存在，则会创建一个带有此key的元素放入map。

容器hashtable

hashtable作为unordered_set和unordered_map的底层结构。hashtable主要的思想就是将给定的元素通过哈希函数计算后得到一个哈希码（Hash Code），这个给定的元素就可以看作为value, 而生成的哈希码可以看为key。有以下的结论：

如果两个元素相等，那么通过相同的函数计算得到的哈希码一定相同
如果两个元素的哈希码相同，并不能说明两个元素是相同的，只能说明两个元素在三列存储结构中，存放于同一个位置。

以int为元素类型，一个hashtable就是用来表现hashcode和元素之间的映射关系，可以定义一个一定大小的数组用来保存这种映射关系。hashtable中的每一个位置称为一个bucket。假设hashtable的大小为53，现在有些需要存放的数据{59, 63, 108, 2, 53, 55}。我们可以用一个简单的哈希函数来计算哈希码：取余法

static int indexFor(int h, int length) {  
    return h % length;
}

这样59就存放在序号为6的位置；63就存放在序号为10的位置；108就在序号为2的位置上；2就在序号为2的位置上；53就存放在序号为0的位置；55就存放在序号为2的位置。

通过这样的方式可以快速访问到相应的元素，但也会发现108，2，55三个数的哈希码冲突了，产生哈希码的过程中难免会产生冲突，一种好的冲突解决方案决定了hashtable的效率。目前常用的一种冲突解决方案是Separate Chaining。

这样hashtable中每一个bucket都存放一个链表，所有冲突的哈希码都放在这个链表中。虽说链表的查找是一个线型过程，但是当链表不长时查找的效率还是不差的，当链表过长时，可以将链表转换为红黑树提高查找效率。当整个hashtable中存放的数据过多，会因为链表过长导致查找效率急速下降。但是目前这个界限没有明确的界定，根据大家的经验来说，当hashtable中的数据个数大于bucket的个数时，效率就会受到影响。这个时候就需要对hashtable的bucket进行扩充，这个扩充过程一般来说是将bucket的数量乘以2，然后选出这个2倍数附近的一个素数。对于这样固定模式的扩充，可以不用在使用时进行计算，而是在程序中将需要扩充的数字写好，在使用时直接调用。

static const unsigned long __stl_prime_list[__stl_num_primes] = {
	53,         97,           193,         389,       769,
	1543,       3079,         6151,        12289,     24593,
	49157,      98317,        196613,      393241,    786433,
	1572869,    3145739,      6291469,     12582917,  25165843,
	50331653,   100663319,    201326611,   402653189, 805306457, 
	1610612741, 3221225473ul, 4294967291ul
};

在扩充之后，因为bucket的个数发生了变化所以需要对整个hashtable进行重新计算。

template <class Value,
          class Key,
          class HashFcn,
          class ExtractKey,
          class EqualKey,
          class Alloc=alloc>
class hashtable {
public:
    typedef HashFcn hasher;
    typedef EqualKey key_equal;
    typedef size_t size_type;

private:
    hasher hash;
    key_equal equals;
    ExtractKey get_key;

    typedef __hashtable_node<Value> node;//单向链表

    vector<node*, Alloc> buckets;
    size_type num_elements;
public:
    size_type bucket_count() const { return buckets.size();}
...
}