c++ 容器学习理论

【转载】http://blog.csdn.net/acosoft/article/details/4395468

在面向对象的语言中，大多引入了容器的概念。那么什么是容器？实质上就是一组相同类型对象的集合，但是它又不仅仅像数组那样简单，它实现了比数组更复杂的数据结构，当然也实现了比数组更强大的功能。C++ 标准模板库里提供了10 种通用的容器类，它基本上可以解决程序中遇到的大多数问题。

现在我主要来说明这10 种通用容器的功能用途以及相互之间的相同与异同。但是在这里，我不提倡一开始就着手从这10 种容器开始，因为这样恐怕在随后的理解上产生很多困难。在此之前了解一下数据结构的基本概念是很有必要的，因为容器的概念是基于数据结构的基本知识，实际上这些容器就是对数据结构提炼的产物，或者说每一个容器就是对某一种数据结构的实例化。容器是由数据结构而来，如果不了解数据结构就很难理解容器的本质。

数据结构的概念提出于上世纪80 年代，它是随着程序语言结构化设计的诞生而兴起。数据结构主要包含两块内容：数据结构和算法。曾经在计算机界有这样一个公式：数据结构+ 算法= 程序，这种思想对程序设计产生着深刻的影响，即使是现在依旧是计算机程序设计的基础，可见它的重要性。随着面向对象程序设计的发展数据结构也在进一步的发展和变化，它在未来也是程序设计不可或缺的基础之一。数据结构如此之重要，但是它的内容太过于复杂庞大，在这里就C++ 通用容器所用到的基础数据结构知识作以简单介绍。

计算机运行实质上就是在处理一些数据。这些数据对计算机来说不是杂乱无章的，而是有内在的联系，这种联系也许对人类思维来说不是一目了然的，但计算机能清楚的认识到。正是这种联系，大量的复杂的数据才能得到合理的组织和有效的处理。数据结构就是研究这些数据以及它们之间的联系，还有在这种联系下对数据的操作。

在数据结构里对数据的研究主要从三个方面着手 ：

l 数据的逻辑结构

l 数据的存储结构

l 数据的操作

数据元素之间的相互联系方式称为数据的逻辑结构 。数据的逻辑结构是对数据元素之间逻辑关系的描述，它可以用一个数据元素的集合和定义在此集合上的若干关系来表示。数据的逻辑结构经常被简称为数据结构。

按照数据的逻辑结构来分，有两种形式：线性结构和非线性结构。线性结构是指除第一个和最后一个数据元素外，每个数据元素有且只有一个前驱元素和一个后继元素，而非线性数据结构则会有零个或多个前驱元素和零个或多个后继元素。

数据元素在计算机中的存储表示方式称为数据的存储结构 ，也称物理结构。任何需要计算机进行管理和处理的数据元素都必须首先按某种方式存储在计算机中，数据存储结构能正确地表示出数据元素间的逻辑关系。

按照数据的存储结构来分，有两种类型：顺序存储结构和链式存储结构。顺序存储结构是把数据元素存储在一块连续地址空间的内存中，其特点是逻辑上相邻的数据元素在物理上（即内存存储位置上）也相邻，数据间的逻辑关系表现在数据元素的存储位置关系上。链式存储结构的关键是使用节点，节点是由数据元素域与指针域组合的一个整体，指针将相互关联的节点衔接起来。其特点是逻辑上相邻的元素在物理上不一定相邻，数据间的逻辑关系表现在节点的衔接关系上。

数据的逻辑结构是从逻辑关系角度观察数据，它与数据的存储无关，是独立于计算机的。而数据的存储结构是逻辑结构在计算机内存中的实现，它是计算机处理的逻辑。

数据操作是指对一种数据类型的数据元素进行的某种处理 。数据的操作是定义在数据的逻辑结构上的，每种逻辑结构都有一个操作的集合，不同的逻辑结构有不同的操作。操作的具体实现与存储结构有关。对于常用的数据结构的操作主要包括以下几种：访问元素、统计元素个数、更新元素、插入元素、删除元素、查找元素以及排序元素等。

上面从整体上说明了数据结构的概念和分类，下面就具体的几种常用的数据结构作以说明。

线性表

数据结构中最简单最基本的结构是线性表 。线性表是相同类型的数据元素的有限序列，数据元素之间具有顺序关系。从数据的存储结构上线性表可以分为顺序表和链表两类。顺序表即是对线性结构使用顺序存储结构的方式，链表即是对线性结构使用链式存储结构的方式。其两者的特点就是逻辑的线性结构对不同存储结构的实现。顺序表是一组连续的存储单元顺序存放的线性的数据元素，数据元素在内存的物理存储次序与他们在线性表中的逻辑次序是一致的。链表是将线性的数据元素存放在节点上，节点包含数据元素和指针，指针保存了各节点元素之间的逻辑关系。这些节点有逻辑上的次序关系，但在存储结构中没有次序关系，即在内存中没有在连续的存储单元。从其存储特点上看，顺序表检索性能非常好，因为它存储在连续的内存块中，而链表的插入和删除性能非常好，因为它在内存中操作一个元素不会影响到其它任何元素。

栈(stack)

栈是一种特殊的线性表。其插入和删除只允许在线性表的一端进行。允许操作的一端称为栈顶，不允许操作的一端称为栈底。由于栈的特点，每次插入或删除都是操作最后的元素，所以栈是“后进先出”表。

栈同样可以用顺序存储和链式存储两种方式实现，所以栈又分为顺序栈和链式栈。

队列（queue ）

队列是一种特殊的线性表，其插入和删除操作分别在线性表的两端进行。其特点是当前出对的数据元素一定是队列中最先入队的元素，所以队列又称“先进先出”表。

同栈一样，队列分为顺序队列和链式队列。顺序队列又分为普通顺序队列和顺序循环队列。

优先级队列

优先级队列是队列的一种形式，它是对每次插入队列后的数据按某种规则进行排序，每次删除的均是优先级最高的数据元素。

树

树结构是数据元素之间具有层次关系的非线性结构。除根节点外，树结构中每个数据元素只有一个前驱元素，可有零个或若干个后继元素，根节点没有前驱元素。

树结构主要分树和二叉树两种。

二叉树

二叉树是树结构的一种特殊形式，它最多只有两个子树、且两个子树是有左右之分的有序树。二叉树是严格有序的树，即使只有一个子树也要区分左子树和右子树。对于子树相同但左右结构不相同的二叉树是不同的两个二叉树。

堆

堆是二叉树的特殊形式。二叉树有两种特殊形式，满二叉树和完全二叉树。满二叉树是每个节点的值都达到最大值。完全二叉树是最下面一层可以不满，其上各层是满的二叉树。除此以外，完全二叉树最下面一层的节点都集中在该层最左边的若干位置上。

堆属于完全二叉树，但堆是有序的完全二叉树，在堆二叉树中，任意一个节点的关键字值都小于或大于它的子节点的关键字值。根节点最大的堆叫大顶堆，根节点最小的对叫小顶堆。

图

图是数据结构里比较复杂的一种结构，在C++ 通用容器中也没有包含到，在这里只做简单的介绍。图是一种非线性结构，它不像线性表的数据元素之间那样仅有顺序关系，也不像树结构的数据元素之间那样存在层次关系，在图结构中，数据元素之间的关系没有限制，任意两个元素之间都可以相邻，每个元素都可以有多个前驱元素和多个后继元素。

数组、矩阵

数组是一组相同数据类型的数据元素的集合，数组元素按次序存储在一个地址连续的内存空间中。数组元素在数组中的位置称为数组的下标，通过下标可以找到存放数组元素的存储地址，从而访问数组元素值。

数组中最简单的是一维数组。一维数组可以看成一个顺序存储结构的线性表。二维数据定义为“其数据元素为一维数组”的线性表。矩阵一般采用二维数组存储。

广义表

广义表是n 个数据元素组成的有限序列。同数组不一样，它的每一个元素可以是不同的数据类型或数据结构，可以是一个不可分的元素，也可以是一个复杂的数据结构甚至可以是一个广义表。如果广义表的子表是其自身，则称该广义表为递归表。

广义表是一种线性结构，其数据元素之间有线性的固定的次序关系，但它不等于线性表，仅当其数据元素全部是原子元素时才等价于线性表。所以说广义表是线性表的扩展，而线性表是广义表的特例。

广义表也是一种多层次结构，当广义表的数据元素中包含子表时，该广义表就是一种多层次的结构。

所以广义表可以是线性结构也可以是非线性结构，它既可以表示简单的线性结构，也可以表示树、图等复杂的非线性结构。它是数据结构的一种综合形式。按存储方式分广义表可以分为顺序存储和链式存储两种方式。

有了对数据结构的基本认识，那么对高级语言所提出的容器的概念就很容易理解。下面我们就来了解一下C++ 标准模板库(STL) 提所供的10 种通用容器。

什么是容器

首先，我们必须理解一下什么是容器，在C++ 中容器被定义为：在数据存储上，有一种对象类型，它可以持有其它对象或指向其它对像的指针，这种对象类型就叫做容器。很简单，容器就是保存其它对象的对象，当然这是一个朴素的理解，这种“对象”还包含了一系列处理“其它对象”的方法，因为这些方法在程序的设计上会经常被用到，所以容器也体现了一个好处，就是“容器类是一种对特定代码重用问题的良好的解决方案”。

容器还有另一个特点是容器可以自行扩展。在解决问题时我们常常不知道我们需要存储多少个对象，也就是说我们不知道应该创建多大的内存空间来保存我们的对象。显然，数组在这一方面也力不从心。容器的优势就在这里，它不需要你预先告诉它你要存储多少对象，只要你创建一个容器对象，并合理的调用它所提供的方法，所有的处理细节将由容器来自身完成。它可以为你申请内存或释放内存，并且用最优的算法来执行您的命令。

容器是随着面向对象语言的诞生而提出的，容器类在面向对象语言中特别重要，甚至它被认为是早期面向对象语言的基础。在现在几乎所有的面向对象的语言中也都伴随着一个容器集，在C++ 中，就是标准模板库（STL ）。

和其它语言不一样，C++ 中处理容器是采用基于模板的方式。标准C++ 库中的容器提供了多种数据结构，这些数据结构可以与标准算法一起很好的工作，这为我们的软件开发提供了良好的支持！

通用容器的分类

STL 对定义的通用容器分三类：顺序性容器、关联式容器和容器适配器。

顺序性容器 是一种各元素之间有顺序关系的线性表，是一种线性结构的可序群集。顺序性容器中的每个元素均有固定的位置，除非用删除或插入的操作改变这个位置。这个位置和元素本身无关，而和操作的时间和地点有关，顺序性容器不会根据元素的特点排序而是直接保存了元素操作时的逻辑顺序。比如我们一次性对一个顺序性容器追加三个元素，这三个元素在容器中的相对位置和追加时的逻辑次序是一致的。

关联式容器 和顺序性容器不一样，关联式容器是非线性的树结构，更准确的说是二叉树结构。各元素之间没有严格的物理上的顺序关系，也就是说元素在容器中并没有保存元素置入容器时的逻辑顺序。但是关联式容器提供了另一种根据元素特点排序的功能，这样迭代器就能根据元素的特点“顺序地”获取元素。

关联式容器另一个显著的特点是它是以键值的方式来保存数据，就是说它能把关键字和值关联起来保存，而顺序性容器只能保存一种（可以认为它只保存关键字，也可以认为它只保存值）。这在下面具体的容器类中可以说明这一点。

容器适配器 是一个比较抽象的概念， C++ 的解释是：适配器是使一事物的行为类似于另一事物的行为的一种机制。容器适配器是让一种已存在的容器类型采用另一种不同的抽象类型的工作方式来实现的一种机制。其实仅是发生了接口转换。那么你可以把它理解为容器的容器，它实质还是一个容器，只是他不依赖于具体的标准容器类型，可以理解是容器的模版。或者把它理解为容器的接口，而适配器具体采用哪种容器类型去实现，在定义适配器的时候可以由你决定。

下表列出STL 定义的三类容器所包含的具体容器类：

标准容器类	特点
顺序性容器
vector	从后面快速的插入与删除，直接访问任何元素
deque	从前面或后面快速的插入与删除，直接访问任何元素
list	双链表，从任何地方快速插入与删除
关联容器
set	快速查找，不允许重复值
multiset	快速查找，允许重复值
map	一对多映射，基于关键字快速查找，不允许重复值
multimap	一对多映射，基于关键字快速查找，允许重复值
容器适配器
stack	后进先出
queue	先进先出
priority_queue	最高优先级元素总是第一个出列

顺序性容器：

向量 vector ：

是一个线性顺序结构。相当于数组，但其大小可以不预先指定，并且自动扩展。它可以像数组一样被操作，由于它的特性我们完全可以将vector 看作动态数组。
在创建一个vector 后，它会自动在内存中分配一块连续的内存空间进行数据存储，初始的空间大小可以预先指定也可以由vector 默认指定，这个大小即capacity （）函数的返回值。当存储的数据超过分配的空间时vector 会重新分配一块内存块，但这样的分配是很耗时的，在重新分配空间时它会做这样的动作：

首先，vector 会申请一块更大的内存块；

然后，将原来的数据拷贝到新的内存块中；

其次，销毁掉原内存块中的对象（调用对象的析构函数）；

最后，将原来的内存空间释放掉。

如果vector 保存的数据量很大时，这样的操作一定会导致糟糕的性能（这也是vector 被设计成比较容易拷贝的值类型的原因）。所以说vector 不是在什么情况下性能都好，只有在预先知道它大小的情况下vector 的性能才是最优的。

vector 的特点：
(1) 指定一块如同数组一样的连续存储，但空间可以动态扩展。即它可以像数组一样操作，并且可以进行动态操作。通常体现在push_back() pop_back() 。
(2) 随机访问方便，它像数组一样被访问，即支持[ ] 操作符和vector.at()
(3) 节省空间，因为它是连续存储，在存储数据的区域都是没有被浪费的，但是要明确一点vector 大多情况下并不是满存的，在未存储的区域实际是浪费的。

(4) 在内部进行插入、删除操作效率非常低，这样的操作基本上是被禁止的。Vector 被设计成只能在后端进行追加和删除操作，其原因是vector 内部的实现是按照顺序表的原理。
(5) 只能在vector 的最后进行push 和pop ，不能在vector 的头进行push 和pop 。
(6) 当动态添加的数据超过vector 默认分配的大小时要进行内存的重新分配、拷贝与释放，这个操作非常消耗性能。所以要vector 达到最优的性能，最好在创建vector 时就指定其空间大小。

双向链表list

是一个线性链表结构，它的数据由若干个节点构成，每一个节点都包括一个信息块（即实际存储的数据）、一个前驱指针和一个后驱指针。它无需分配指定的内存大小且可以任意伸缩，这是因为它存储在非连续的内存空间中，并且由指针将有序的元素链接起来。

由于其结构的原因，list 随机检索的性能非常的不好，因为它不像vector 那样直接找到元素的地址，而是要从头一个一个的顺序查找，这样目标元素越靠后，它的检索时间就越长。检索时间与目标元素的位置成正比。

虽然随机检索的速度不够快，但是它可以迅速地在任何节点进行插入和删除操作。因为list 的每个节点保存着它在链表中的位置，插入或删除一个元素仅对最多三个元素有所影响，不像vector 会对操作点之后的所有元素的存储地址都有所影响，这一点是vector 不可比拟的。

list 的特点：
(1) 不使用连续的内存空间这样可以随意地进行动态操作；
(2) 可以在内部任何位置快速地插入或删除，当然也可以在两端进行push 和pop 。
(3) 不能进行内部的随机访问，即不支持[ ] 操作符和vector.at() ；
(4) 相对于verctor 占用更多的内存。

双端队列deque
是一种优化了的、对序列两端元素进行添加和删除操作的基本序列容器。它允许较为快速地随机访问，但它不像vector 把所有的对象保存在一块连续的内存块，而是采用多个连续的存储块，并且在一个映射结构中保存对这些块及其顺序的跟踪。向deque 两端添加或删除元素的开销很小。它不需要重新分配空间，所以向末端增加元素比vector 更有效。

实际上，deque 是对vector 和list 优缺点的结合，它是处于两者之间的一种容器。

deque 的特点：
(1) 随机访问方便，即支持[ ] 操作符和vector.at() ，但性能没有vector 好；
(2) 可以在内部进行插入和删除操作，但性能不及list ；
(3) 可以在两端进行push 、pop ；

三者的比较

下图描述了vector 、list 、deque 在内存结构上的特点：

vector 是一段连续的内存块，而deque 是多个连续的内存块， list 是所有数据元素分开保存，可以是任何两个元素没有连续。

vector 的查询性能最好，并且在末端增加数据也很好，除非它重新申请内存段；适合高效地随机存储。

list 是一个链表，任何一个元素都可以是不连续的，但它都有两个指向上一元素和下一元素的指针。所以它对插入、删除元素性能是最好的，而查询性能非常差；适合大量地插入和删除操作而不关心随机存取的需求。

deque 是介于两者之间，它兼顾了数组和链表的优点，它是分块的链表和多个数组的联合。所以它有被list 好的查询性能，有被vector 好的插入、删除性能。如果你需要随即存取又关心两端数据的插入和删除，那么deque 是最佳之选。

关联容器

set, multiset, map, multimap 是一种非线性的树结构，具体的说采用的是一种比较高效的特殊的平衡检索二叉树—— 红黑树结构。（至于什么是红黑树，我也不太理解，只能理解到它是一种二叉树结构）

因为关联容器的这四种容器类都使用同一原理，所以他们核心的算法是一致的，但是它们在应用上又有一些差别，先描述一下它们之间的差别。

set ，又称集合，实际上就是一组元素的集合，但其中所包含的元素的值是唯一的，且是按一定顺序排列的，集合中的每个元素被称作集合中的实例。因为其内部是通过链表的方式来组织，所以在插入的时候比vector 快，但在查找和末尾添加上被vector 慢。

multiset ，是多重集合，其实现方式和set 是相似的，只是它不要求集合中的元素是唯一的，也就是说集合中的同一个元素可以出现多次。

map ，提供一种“键- 值”关系的一对一的数据存储能力。其“键”在容器中不可重复，且按一定顺序排列（其实我们可以将set 也看成是一种键- 值关系的存储，只是它只有键没有值。它是map 的一种特殊形式）。由于其是按链表的方式存储，它也继承了链表的优缺点。

multimap ，和map 的原理基本相似，它允许“键”在容器中可以不唯一。

关联容器的特点是明显的，相对于顺序容器，有以下几个主要特点：

1，其内部实现是采用非线性的二叉树结构，具体的说是红黑树的结构原理实现的；

2， set 和map 保证了元素的唯一性，mulset 和mulmap 扩展了这一属性，可以允许元素不唯一；

3，元素是有序的集合，默认在插入的时候按升序排列。

基于以上特点，

1，关联容器对元素的插入和删除操作比vector 要快，因为vector 是顺序存储，而关联容器是链式存储；比list要慢，是因为即使它们同是链式结构，但list 是线性的，而关联容器是二叉树结构，其改变一个元素涉及到其它元素的变动比list 要多，并且它是排序的，每次插入和删除都需要对元素重新排序；

2，关联容器对元素的检索操作比vector 慢，但是比list 要快很多。vector 是顺序的连续存储，当然是比不上的，但相对链式的list 要快很多是因为list 是逐个搜索，它搜索的时间是跟容器的大小成正比，而关联容器查找的复杂度基本是Log(N) ，比如如果有1000 个记录，最多查找10 次，1,000,000 个记录，最多查找20次。容器越大，关联容器相对list 的优越性就越能体现；

3，在使用上set 区别于vector,deque,list 的最大特点就是set 是内部排序的，这在查询上虽然逊色于vector，但是却大大的强于list 。

4，在使用上map 的功能是不可取代的，它保存了“键- 值”关系的数据，而这种键值关系采用了类数组的方式。数组是用数字类型的下标来索引元素的位置，而map 是用字符型关键字来索引元素的位置。在使用上map 也提供了一种类数组操作的方式，即它可以通过下标来检索数据，这是其他容器做不到的，当然也包括set 。（STL 中只有vector 和map 可以通过类数组的方式操作元素，即如同ele[1] 方式）

容器适配器

STL 中包含三种适配器：栈stack 、队列queue 和优先级priority_queue 。

适配器是容器的接口，它本身不能直接保存元素，它保存元素的机制是调用另一种顺序容器去实现，即可以把适配器看作“它保存一个容器，这个容器再保存所有元素”。

STL 中提供的三种适配器可以由某一种顺序容器去实现。默认下stack 和queue 基于deque 容器实现，priority_queue 则基于vector 容器实现。当然在创建一个适配器时也可以指定具体的实现容器，创建适配器时在第二个参数上指定具体的顺序容器可以覆盖适配器的默认实现。

由于适配器的特点，一个适配器不是可以由任一个顺序容器都可以实现的。

栈stack 的特点是后进先出，所以它关联的基本容器可以是任意一种顺序容器，因为这些容器类型结构都可以提供栈的操作有求，它们都提供了push_back 、pop_back 和back 操作；

队列queue 的特点是先进先出，适配器要求其关联的基础容器必须提供pop_front 操作，因此其不能建立在vector容器上；

优先级队列priority_queue 适配器要求提供随机访问功能，因此不能建立在list 容器上。

c++ 容器学习 理论

c++ 容器学习理论