大O表示法的理解

一. 背景

在现实生活中，解决一个问题可以有多种方法，其中有好的方法，也有较为一般的方法。评判标准虽有不同，但总体思想是：用最小的代价获得最多的收益。

这里所说代价并不仅指金钱开销，有时也包括时间，所耗费资源等。

计算机程序也是为了解决问题而编写的。同理可知，程序有好的，也有一般的，评判标准主要有两方面：时间与空间。

人们都希望事情解决的越快越好，所以程序解决问题花费的时间一定要少。计算机资源是有限的，所以程序也要尽可能的少消耗资源。

不过很多时候不能两全其美，此时应该抓主要矛盾。在编程时，很多场合会用空间消耗的增加来换取运行时间的减少。毕竟对于我们来说，时间一般会更加重要。

二. 引入

那么应该怎么比较不同算法之间的优劣呢？答：应该从时间与空间两方面入手。

打个比方：

你的书架上有100本书，它们是任意放置的，没有先后次序。你想在其中找到《算法导论》，那么你需要从头找到尾，运气好的话，第一本就是，运气不好的话，你就要找到最后。

但是有一天你突发奇想，为每本书编号并且记住了，那么运用二分查找，最多只需要找7次。

忽然有一天，你买了1000本书，还是没有先后次序地都放在书架上，并且又想找到《算法导论》，这次情况就会比较复杂，运气好的话，第一本就是，运气不好的话，你要找遍这1000本书。

但是你发现编号的方法比较好找，于是再次编号并运用二分查找，最多只要10次。

三. 大O记号

我们将按照书籍一一查找的方法，叫做方法一；将二分查找叫做方法二。

显然，方法一的查找次数跟书籍的书量相关，你有1万本书的时候，最坏情况就要找1万次。而方法二则快的多。

方法一的算法叫做线性查找，当你有 n 本书的时候，最多需要 n 次查找。线性的意思是算法所需要的时间跟数据的量成正比。

方法二（二分查找）所需要的时间也跟数据量相关，但是并不会随着数据量的增长而剧烈增加。

可以发现，算法的执行时间是与数据量有关的。

在方法一中，从 n 本书中找到一本书，最坏情况下需要找 n 次，我们将这种最坏情况下需要的时间记为 O（ n ）。最好情况只需要找一次，即第一本书就是，我们将这种情况记为 Ω （1）。

我们用大O表示最坏情况下需要的时间时间，用大 Ω 表示最好情况下需要的时间。不过最好情况并不总会发生，所以它的意义不大。

一般讨论的都是最坏情况下需要的时间，它给了人们一种保证，即最坏情况下所用的时间是多少。

四. 时间还是次数？

1. 回到上面的例子中，你有 n 本书时，最坏情况需要的时间是 O（ n ），那有 2n 本书时呢？答：也应该表示为 O （ n ），而不是 O （ 2n ）。

我们关注的是算法所花时间随着数据量增长的量级，应该抛去其中不重要的项，只留下起决定性因素的项，而不是具体的函数。

这里又会有一个新的问题。

假设一个成年人从100本书中找一本，最多需要100次，花费1小时；一个小孩从100本书中找一本，最多需要100次，花费10小时。

100次是相同的次数，而1小时和10小时却不一样。不同的人按照同一种工序执行一种操作，操作相同，但花费时间不同。

同样一个程序，在不同的计算机上运行，最后花费的时间必然不一样，由此可见，具体的时间并不能用来衡量算法的优劣。

我们发现，两个人都用了100次，说明不管是谁来操作，都需要花费100次，这里是同一个算法在不同平台上的比较。

而不同算法之间的横向比较，也需要通过次数来进行。

线性查找在A计算机上执行100次，花费1小时；在B计算机上执行100次，花费10小时。

二分查找在A计算机上执行7次，花费1分钟；在B计算机上执行7次，花费10分钟。

显然，二分查找不论哪种情况，都要比线性查快，哪怕是两台计算机的运行时间不一样。

我们关注的就是这种增长率，而不是具体的时间。通过分析的手法，能够提前估算算法需要的时间，而不是分别运行两个算法再统计时间。

2. 在程序中，计算时间复杂度时，是按照语句的执行次数来计算的。

前面说过，同样的程序，在不同计算机上的运行时间不同，不同的算法在不同的计算机上运行时间也不一样，所以不应该用时间作为统一的衡量标准。

但是一个算法，在处理相同数据量时，语句运行的次数是一样的，并且我们假设每条语句的运行时间相同（具体时间是多少无关紧要），为一个确定的数值，那么算法的时间复杂度用大O表示法来表示。