数据结构06-01-排序算法

排序算法

排序算法

排序算法的介绍

排序也称排序算法（Sort Algorithm），排序是将一组数据，依指定的顺序排列的过程。

排序的分类

内部排序
指将需要处理的所有数据都加载到内部存储器（内存）中进行排序。
外部排序法
数据量过大，无法全部加载到内存中，需要借助外部存储（文件等）进行排序。
常见的排序算法分类：

算法的时间复杂度

度量一个程序（算法）执行时间的两种方法

事后统计的方法
这种方法可行，但是有两个问题：
一：想对设计的算法的运行性能进行评测，需要实际运行该程序；
二：所得的时间统计量依赖于计算机的硬件、软件等环境因素，这种方式，要在同一台计算机的相同状态下运行，才能比较哪个算法更快。
事前估算的方法
通过分析某个算法的时间复杂度判断那个算法更优。

时间频度

基本介绍
时间频度：一个算法花费时间与算法中语句的执行次数成正比，哪个算法中语句执行次数多，它花费时间就多。一个算法中的语句执行次数称为语句频度或事件频度。记为T（n）。
举例说明-基本案例
比如计算1-100所有数字之和，我们设计两种算法：
举例说明-忽略常数项

结论：

1. 2n+20和2n随着n变大，执行曲线无限接近，20可以忽略。
2. 3n+10 和 3n随着n变大，执行曲线无线接近。10可以忽略。

举例说明-忽略低次项

结论

1. 2n^2+3n+10和2n^2随着n变大，执行曲线无限接近，可以忽略3n+10。
2. n^2+5n+20和2^2随着n变大，执行曲线无线接近，可以忽略5n+20。

举例说明-忽略系数

结论

1. 随着n值变大，5n^2+7n 和3n^2+2n，执行曲线啊重合，说明这种情况下，5和3可以忽略。
2. 而n^3+5和6n^3+4n，之心曲线分离，说明多少次方式关键。

时间复杂度

一般情况下，算法中的基本操作语句的重复执行次数是问题规模n的某个函数，用T（n）表示，若有某个辅助函数f(n)，使得当n趋近无穷大时，T(n)/f(n)的极限值为不等于零的常数，则称f(n)是T（n）的同数量级函数。记作T(n)=O(f(n))则称O(f(n))为算法的渐进时间复杂度，简称时间复杂度。
T(n)不同，但时间复杂度可能相同。如：T(n) = n^{2+7n+6与T(n)=3n}2+2n+2他们的T(n)不同，但时间复杂度相同，都为O(n^2)。
计算时间复杂度的方法：

用常数1代替运行时间中左右加法常数：T(n)=n^2+7n+6 => T(n)=n^2+7n+1
修改后的运行次数函数中，只保留最高项阶：T(n)=n^2+7n+1 => T(n)=n^2
去除最高阶项的系数：T(n)=n^2 => T(n)=n^2

常见的时间复杂度

常见的时间复杂度对应的图：

说明：

常见的算法时间复杂度由小到大依次为：0(1)<O(log2n)<O(n)<O(nlog2n)<O(n^2)<O(n3)<O(n^k)<O(2n)，随着问题规模n的不断增大，上述事件复杂度不断增大，算法的执行效率越低。
从图中可见，我们应该尽可能避免使用指数阶的算法。

常见时间复杂度举例：

常数阶O（1）
无论代码执行了多少行，只要是没有循环等复杂结构，那这个代码的时间复杂度都是O(1)

上述代码在执行的时候，他消耗的时候并不随着某个变量的增长而增长，那么无论这类代码由多长，即时有几十万行，都可以用O(1)来表示它的时间复杂度。
2. 对数阶O(log2n)

说明：在while循环里面，每次都将i乘以2，乘完以后，i距离n久越来越近。假设循环x次之后，i就大于2了，此时这个循环就退出，也就是说2的x次方等于n，那么x=log2n也就是说当循环log2n次以后，这个代码就结束了。因此这个代码的时间复杂度为：O(log2n)。O(log2n）的这个时间上是根据代码变化的，i=i*3，则是O（log3n）

如果N=a^x(a>0,a/=1),即a的x次方等于N（a>0,且a/=1）,那么数x叫做以a为底N的对数，记作x=logaN.其中a叫做对数的底数，N叫做真数，x叫做以a为底N的对数。

线性阶O(n)

说明：这段代码，for循环里面的代码会执行n遍，因此它消耗的时间是随着n的变化而变化的，因此这类代码都可以用O(n)来表示它的时间复杂度。

线性对数阶O(nlogN)

说明：线性对数阶O(nlogN)其实非常容易理解，将时间复杂度为0(logn)的代码循环n遍地话，那么它的时间复杂度就是n*0(nlogN)

平方阶O(n^2)

说明：平方阶就更容易理解了，如果把O(n)的代码再嵌套循环一遍，它的时间复杂度就是O(n^2)如果将其中一层循环的n改成m，那它的时间复杂度就变成了O(M*N)

立方阶O(n^{3)、K次方阶O（n}k）
说明：参考上面的O(n^{2)去理解就好了,O(n}3)相当于三层循环，其他类似。

平均时间复杂度和最坏时间复杂度

平均时间复杂度是指所有可能的输入实例均以等概率出现的情况下，该算法的运行时间。
最坏情况下的时间复杂度称最坏时间复杂度。一般讨论时间复杂度均是最坏情况下的时间复杂度。这样做的原因是：最坏情况下的时间复杂度是算法再任何实例上运行时间的界限，这就保证了算法的运行时间不会比最坏情况更长。

算法的空间复杂度简介

基本介绍

类似于事件复杂度的讨论，一个算法的空间复杂度（Space Complexity）定义为该算法所消费的存储空间，他也是问题规模n的函数。
空间复杂度（Space Complexity）是一个算法在运行过程中临时占用存储空间大小的量度。有的算法需要占用的临时空座单元数与解决问题的规模n有关，它随着n的增大而增大，当n较大时，将占用较多的存储单元，例如快速排序和归并排序算法，技术排序就属于这种情况。
在做算法分析时，主要讨论的是事件复杂度。从用户使用体验上看，更看重的程序执行的速度。一些缓存产品（redis,memcache）和算法（基数排序）本质就是空间换时间。