数据结构与算法

观点1 我们无法孤立数据结构来讲算法，也无法孤立算法来讲数据结构。

比如，因为数组具有随机访问的特点，常用的二分查找算法需要用数组来存储数据。但如果

我们选择链表这种数据结构，二分查找算法就无法工作了，因为链表并不支持随机访问。

这里面有 10 个数据结构:数组、链表、栈、队列、散列表、二叉树、堆、跳表、图、Trie 树;

10 个算法:递归、排序、二分查找、搜索、哈希算法、贪心算法、分治算法、回溯算法、动态规划、字符串匹配算法。

03 | 复杂度分析(上):如何分析、统计算法的执行效率和资源消耗?

执行时间 (2n+2)*unit_time

所以，整段代码总的执行时间 T(n) = (2n2+2n+3)*unit_time。

而公式中的低阶、常量、系数三部分并不左右增长趋势，所以都可以忽略

所以只需要记录最大量级就可以了

T(n) = O(n); T(n) = O(n2)。

时间复杂度分析

1. 只关注循环执行次数最多的一段代码

2.加法法则

总的时间复杂度就等于量级最大的那段代码的时间复杂度

3. 乘法法则:嵌套代码的复杂度等于嵌套内外代码复杂度的乘积

1.o(1) 和n无关

2.O(logn)、O(nlogn)

i=1
while （i<=n）{
    i=i*2
}

根据我们前面讲的复杂度分析方法，第三行代码是循环执行次数最多的。所以，我们只要能
计算出这行代码被执行了多少次，就能知道整段代码的时间复杂度。

从代码中可以看出，变量 i 的值从 1 开始取，每循环一次就乘以 2。当大于 n 时，循环结束。还记得我们高中学过的等比数列吗?实际上，变量 i 的取值就是一个等比数列。如果我把它一个一个列出来，就应该是这个样子的:

所以，我们只要知道 x 值是多少，就知道这行代码执行的次数了。通过 2x=n 求解 x 这个问题我们想高中应该就学过了，我就不多说了。x=log2n，所以，这段代码的时间复杂度就是 O(log2n)。

现在，我把代码稍微改下，你再看看，这段代码的时间复杂度是多少?

根据我刚刚讲的思路，很简单就能看出来，这段代码的时间复杂度为 O(log3n)。

实际上，不管是以 2 为底、以 3 为底，还是以 10 为底，我们可以把所有对数阶的时间复杂度都记为 O(logn)。为什么呢?

我们知道，对数之间是可以互相转换的，log3n 就等于 log32 * log2n，所以 O(log3n) = O(C * log2n)，其中 C=log32 是一个常量。基于我们前面的一个理论:在采用大 O 标记复杂度的时候，可以忽略系数，即 O(Cf(n)) = O(f(n))。所以，O(log2n) 就等于 O(log3n)。因此，在对数阶时间复杂度的表示方法里，我们忽略对数的“底”，统一表示为 O(logn)。

如果你理解了我前面讲的 O(logn)，那 O(nlogn) 就很容易理解了。还记得我们刚讲的乘法法则吗?如果一段代码的时间复杂度是 O(logn)，我们循环执行 n 遍，时间复杂度就是 O(nlogn) 了。而且，O(nlogn) 也是一种非常常见的算法时间复杂度。比如，归并排序、快速排序的时间复杂度都是 O(nlogn)。

3. O(m+n)、O(m*n)

基础复杂度分析的知识到此就讲完了，我们来总结一下。

复杂度也叫渐进复杂度，包括时间复杂度和空间复杂度，用来分析算法执行效率与数据规模之间的增长关系，可以粗略地表示，越高阶复杂度的算法，执行效率越低。常见的复杂度并不多，从低阶到高阶有:O(1)、O(logn)、O(n)、O(nlogn)、O(n2 )。等你学完整个专栏之后，你就会发现几乎所有的数据结构和算法的复杂度都跑不出这几个。

5数组为什么从0编号

如何实现随机访问?

1.数组是一种线性表数据结构

2.数组用一组连续的内存空间存储相同的数据类型

名词1 ：线性表

每个只有线性表只有向前向后两个方向（除了数组是限行结构还有链表队列栈）

非线性并不是简单的前后关系（二叉树堆图等）

名词2：连续的内存空间和相同类型的数据

利1.具有随机访问

弊1.很多操作低效（删除或者插入需要做大量的数据搬移工作）

是怎么记录随机访问的

元素地址=数组baseaddr+元素下标*元素的字节大小

比如 int[1,2,3,4]  baseaddr是1000 type_size是8

那么第一个元素 就是1000 第二个元素得知就是1008（1000+8*1）

数组适合查找不适合插入琏表适合插入不适合查找

琏表删除插入是o(1)

数组查询不是o1 就算排好序用二分也是 o(logn) 根据下标随机访问的时间复杂度才是o(1)

低效的“插入”和“删除”

为什么低效如何改进

如果数组有顺序：

如果我们需要将一个数据插入到数组中的第 k 个位置。为了 把第 k 个位置腾出来，给新来的数据，我们需要将第 k~n 这部分的元素都顺序地往后挪一 位，时间复杂度就是O(N-K)+O(1) 最终是O(n)

如果数组是无序的

但是，如果数组中存储的数据并没有任何规律，数组只是被当作一个 存储数据的集合。在这种情况下，如果要将某个数组插入到第 k 个位置，为了避免大规模 的数据搬移，我们还有一个简单的办法就是，直接将第 k 位的数据搬移到数组元素的最 后，把新的元素直接放入第 k 个位置。

为了更好地理解，我们举一个例子。假设数组 a[10] 中存储了如下 5 个元素:a，b，c， d，e。
我们现在需要将元素 x 插入到第 3 个位置。我们只需要将 c 放入到 a[5]，将 a[2] 赋值为 x 即可。最后，数组中的元素如下: a，b，x，d，e，c。

利用这种处理技巧，在特定场景下，在第 k 个位置插入一个元素的时间复杂度就会降为 O(1)

我们再来看删除操作

我们先把要删除的元素记录当内存不够用时再执行删除就不需要一个个删除了这就提高了删除的效率

警惕数组的访问越界问题

你发现问题了吗?这段代码的运行结果并非是打印三行“hello word”，而是会无限打印“hello world”，这是为什么呢?

因为，数组大小为 3，a[0]，a[1]，a[2]，而我们的代码因为书写错误，导致 for 循环的结束条件错写为了 i<=3 而非 i<3，所以当 i=3 时，数组 a[3] 访问越界。

我们知道，在 C 语言中，只要不是访问受限的内存，所有的内存空间都是可以自由访问的。根据我们前面讲的数组寻址公式，a[3] 也会被定位到某块不属于数组的内存地址上，而这个地址正好是存储变量 i 的内存地址，那么 a[3]=0 就相当于 i=0，所以就会导致代码无限循环。

容器能否完全替代数组?

在项目开发中，什么时候适合用数组，什么时候适合用容器呢?

容器可以将很多数据操作封装起来插入删除时需要搬移其他数据另一个优势动态扩容（容器满了当插入新的值时分配更大的内存将数据复制过去将新的数据插入）

扩容设计耗时(内存申请和搬移) 能确定大小就确定

在高级语言中是不是数组就没用了？

1.java 无法存储基础类型 int long 特别关注性能或者使用基本类型就选数组

2.数据大小已知用不到arrlist的方法数据操作简单就选数组

06 | 链表(上):如何实现LRU缓存淘汰算法?

经典的链表应用场景-那就是 LRU 缓存淘汰算法。

缓存满时哪些数据被淘汰出去哪些数据应该保留？

1.先进先出策略

2.最少使用

3.最近最少使用

6.1五花八门的链表结构

底层的存储结构

数组：如果没有一块连续的内存空间就会申请失败（申请1000m的内存空间如果没有一块连续的1000m的内存空间则失败）

链表：每一个节点存放下一个节点的指针（指针将内存串联起来）所以非连续的不会有问题

6.1.1 三种常见链表

单向链表双向链表循环链表

单向链表：头节点记录链表的基地址尾节点指向null

链表插入删除时间复杂度o(1)

6.1.2

因为只需要改变上一个节点的指针重新引用就可以了

而因为不是连续的所以遍历元素需要从头到尾进行遍历直到找到指定的节点

6.1.3 循环链表

它跟单链表唯一的区别就在尾结点

而循环链表的指针指向头

6.1.4 双向链表

除了后驱指针还有一个前驱指针

缺点因为上下指针所以更占内存

优点支持双向遍历就因为这样，在某种情况下插入删除更高效

删除的操作
删除值 从前往后找到值o(n)找到后 删除o(1)

删除指针对应的节点
单链表 先遍历找到这个节点o(n) 要删除这个节点需要直到前驱节点 所以需要从头遍历 删除o（n-1）
双列表 先遍历找到这个节点o(n) 要删除这个节点需要直到前驱节点 所以需要从头遍历 删除o（1） 


插入同理

对于有序的链表来说查询的效率双向要大于单向

链表 VS 数组性能大比拼

6.2 在实际开发中不能仅仅利用复杂度分析就决定用哪种结构

数组可以使用cpu缓存进行预读（？）

数组缺点是大小固定申明小了当不够时会申明更大的空间耗时高申明大了容易申请失败

链表没有大小限制天然支持动态扩容

除此之外，如果你的代码对内存的使用非常苛刻，那数组就更适合你。因为链表中的每个结点都需要消耗额外的存储空间去存储一份指向下一个结点的指针，所以内存消耗会翻倍。而且，对链表进行频繁的插入、删除操作，还会导致频繁的内存申请和释放，容易造成内存碎片，如果是 Java 语言，就有可能会导致频繁的 GC(Garbage Collection，垃圾回收)。

6.3如何实现LRU(最近使用缓存策略)缓存策略

维护一个有序列表（最近使用的在链表头部最早的在链表尾部）

查找元素从前往后

1.如果数据在链表中那么删除这个节点把他放在开头

2.没有的话分为两种

　　2.1 缓存未满将节点直接插入头部

　　2.2 满了的话删除最后一个元素把最新的插入开头

07 | 链表(下):如何轻松写出正确的链表代码?

7.1.几个写链表代码技巧

1.理解指针的概念

将某个变量赋值给指针，实际上就是将这个变量的地址赋值给指针

p->next=q。这行代码是说，p 结点中的 next 指针存储了 q 结点的内存地址。

2.警惕指针丢失和内存泄漏

3.利用哨兵简化实现难度

#插入一个元素  如果开头是空的那么就把新的数据内存地址当作头节点 
#剩下的就是 赋值指针操作
if (head == null) { 
     head = new_node; 
}else{
     new_node->next = p->next; 
     p->next = new_node;      
}

从前面的一步一步分析，我们可以看出，针对链表的插入、删除操作，需要对插入第一个结点和删除最后一个结点的情况进行特殊处理。这样代码实现起来就会很繁琐，不简洁，而且也容易因为考虑不全而出错。如何来解决这个问题呢?

答案是哨兵

哨兵解决的是边界问题不直接参与业务逻辑如果第一个节点是否为空头节点都指向哨兵（带哨兵的链表就是带头链表）

4重点留意边界条件处理

我经常用来检查链表代码是否正确的边界条件有这样几个:
1.链表处理开头和结尾是否遇到问题
2.链表为空是否遇到问题
3.链表只有一个是否会遇到问题

5.举例画图，辅助思考

6:多写多练，没有捷径

试着写这几个

单链表反转

链表中环的检测

两个有序的链表合并

删除链表倒数第 n 个结点

求链表的中间结点

08 | 栈:如何实现浏览器的前进和后退功能?

8.1 如何理解“栈”?

后进者先出，先进者后出，这就是典型的“栈”结构（从抽屉里放衣服和拿衣服为例子）

概念1 数组和链表是完全可以代替栈的但是暴露了太多的接口使用不可控自然更容易出错

如果某个数据结构只有先进后出的特性那么就适合用栈

8.2如何实现一个“栈”?

数组栈：顺序栈

链表栈：链式栈

8.2.1时间空间复杂度是多少呢

我们存储数据只需要一个大小为 n 的数组就够了。在入栈和出栈过程中，只需要一两个临时变量存储空间，所以空间复杂度是 O(1)。

为什么不是o（n）呢因为我们将空间复杂度的时候说过

是指除了原本的数据存储空间外，算法运行还需要额外的存储空间。这里的n是必须的所以是原本存储空间

8.2.2支持动态扩容的顺序栈

我们初始化栈了之后当栈不够时就无法添加数据虽然链式栈没有大小限制但是要记录下一个节点的指针还是很耗费空间的那么我们应该怎么实现一个支持动态扩容的栈呢

当栈满了之后我们申请一个更大的数组将原来的数组搬移到新的数组里

8.2.3 入栈和出栈的时间复杂度

出不涉及内存申请所以复杂度为o1

入栈不一样

当空间不够时需要申请内存和数据搬移时间是on

8.2.4 栈在函数调用中的应用

当函数调用时系统会为每个现成分配内存空间这种内存空间就像栈用来存储临时数据变量

每进入函数就会将临时变量入栈

8.3总结

好了，我想现在你已经完全理解了栈的概念。我们再回来看看开篇的思考题，如何实现浏览
器的前进、后退功能?其实，用两个栈就可以非常完美地解决这个问题。

我们使用两个栈，X 和 Y，我们把首次浏览的页面依次压入栈 X，当点击后退按钮时，再依次从栈 X 中出栈，并将出栈的数据依次放入栈 Y。当我们点击前进按钮时，我们依次从栈 Y 中取出数据，放入栈 X 中。当栈 X 中没有数据时，那就说明没有页面可以继续后退浏览了。当栈 Y 中没有数据，那就说明没有页面可以点击前进按钮浏览了。

比如你顺序查看了 a，b，c 三个页面，我们就依次把 a，b，c 压入栈，这个时候，两个栈的数据就是这个样子:

当你通过浏览器的后退按钮，从页面 c 后退到页面 a 之后，我们就依次把 c 和 b 从栈 X 中弹出，并且依次放入到栈 Y。这个时候，两个栈的数据就是这个样子:

这个时候你又想看页面 b，于是你又点击前进按钮回到 b 页面，我们就把 b 再从栈 Y 中出栈，放入栈 X 中。此时两个栈的数据是这个样子:

这个时候，你通过页面 b 又跳转到新的页面 d 了，页面 c 就无法再通过前进、后退按钮重复查看了，所以需要清空栈 Y。此时两个栈的数据这个样子:

09 | 队列:队列在线程池等有限资源池中的应用

当我们向固定大小的线程池中请求一个线程时，如果线程池中没有空闲资源了，这个时候线程池如何处理这个请求?是拒绝请求还是排队请求?各种处理策略又是怎么实现的呢?

9.1如何理解“队列”?

1.排队买票先来的先买

2.先进者先出，这就是典型的“队列”。

3.入队 enqueue 出队 dequeue

4 受限操作的线性表结构

6.1.2 具有某些额外特性的队列

循环队列阻塞队列并发队列

6.1.3顺序队列和链式队列

同样，用数组实现的队列叫作顺序队列，用链表实现的队列叫作链式队列。

它具有先进先出的特性，支持在队
尾插入元素，在队头删除元素，那究竟该如何实现一个队列呢?

from typing import Optional

class ArrayQueue:
    
    def __init__(self, capacity: int):
        self._items = []
        self._capacity = capacity
        self._head = 0
        self._tail = 0

    def enqueue(self, item: str) -> bool:
        if self._tail == self._capacity:
            if self._head == 0:
                return False
            else:
                for i in range(0, self._tail - self._head):
                    self._items[i] = self._items[i + self._head]
                self._tail = self._tail - self._head
                self._head = 0
        
        self._items.insert(self._tail, item)
        self._tail += 1
        return True
    
    def dequeue(self) -> Optional[str]:
        if self._head != self._tail:
            item = self._items[self._head]
            self._head += 1
            return item
        else:
            return None
    
    def __repr__(self) -> str:
        return " ".join(item for item in self._items[self._head : self._tail])

6.1.4队列需要两个指针:一个是 head 指针，指向队头;一个是 tail 指针，指向队尾。

当我们调用两次出队操作之后，队列中 head 指针指向下标为 2 的位置，tail 指针仍然指向下标为 4 的位置。

你肯定已经发现了，随着不停地进行入队、出队操作，head 和 tail 都会持续往后移动。

6.2.1当 tail 移动到最右边，即使数组中还有空闲空间，也无法继续往队列中添加数据了。这个问题该如何解决呢?

用数据搬移（出队删除下标为0的位置要数据搬移那么时间复杂度就是 on）

实际上，我们在出队时可以不用搬移数据

当数组满了入队时集中处理搬移操作所以我们改变入队操作就可以了

from typing import Optional

class DynamicArrayQueue:

    def __init__(self, capacity: int):
        self._items = []
        self._capacity = capacity
        self._head = 0
        self._tail = 0
    
    def enqueue(self, item: str) -> bool:
        if self._tail == self._capacity:
            if self._head == 0: return False
            
            self._items[0 : self._tail - self._head] = self._items[self._head : self._tail]
            self._tail -= self._head
            self._head = 0
        
        if self._tail == len(self._items):
            self._items.append(item)
        else:
            self._items[self._tail] = item
        self._tail += 1
        return True

    def dequeue(self) -> Optional[str]:
        if self._head != self._tail:
            item = self._items[self._head]
            self._head += 1
            return item
    
    def __repr__(self) -> str:
        return " ".join(item for item in self._items[self._head:self._tail])

if __name__ == "__main__":
    q = DynamicArrayQueue(10)
    for i in range(10):
        q.enqueue(str(i))
    print(q)

    for _ in range(3):
        q.dequeue()
    print(q)

    q.enqueue("7")
    q.enqueue("8")

这样入队出队的操作都是o1

6.3接下来，我们再来看下基于链表的队列实现方法。

入队时，tail->next= new_node, tail = tail- >next;出队时，head = head->next。

#尾部指针指向新的节点 #指针还在原来位置上那么 tail 指向新的节点

from typing import Optional

class DynamicArrayQueue:

    def __init__(self, capacity: int):
        self._items = []
        self._capacity = capacity
        self._head = 0
        self._tail = 0
    
    def enqueue(self, item: str) -> bool:
        if self._tail == self._capacity:
            if self._head == 0: return False
            
            self._items[0 : self._tail - self._head] = self._items[self._head : self._tail]
            self._tail -= self._head
            self._head = 0
        
        if self._tail == len(self._items):
            self._items.append(item)
        else:
            self._items[self._tail] = item
        self._tail += 1
        return True

    def dequeue(self) -> Optional[str]:
        if self._head != self._tail:
            item = self._items[self._head]
            self._head += 1
            return item
    
    def __repr__(self) -> str:
        return " ".join(item for item in self._items[self._head:self._tail])

if __name__ == "__main__":
    q = DynamicArrayQueue(10)
    for i in range(10):
        q.enqueue(str(i))
    print(q)

    for _ in range(3):
        q.dequeue()
    print(q)

    q.enqueue("7")
    q.enqueue("8")
    print(q)

6.4 循环队列

当插入 ab时

在写的过程中一定要

确定好队空和队满的判定条件

from typing import Optional
from itertools import chain


class CircularQueue:

    def __init__(self, capacity):
        self._items = []
        self._capacity = capacity + 1
        self._head = 0
        self._tail = 0

    def enqueue(self, item: str) -> bool:
        # 传递一个字符串
        # 如果尾部索引+1 就是头索引的话 就无法操作 （当索引是最后的时候 索引+1=0 ） 【预判一下 当头索引和尾索引碰在一起时 就无法入队操作了】
        if (self._tail + 1) % self._capacity == self._head:
            return False
        # 队列里加入这个数组
        self._items.append(item)
        #当索引溢出时 归0
        self._tail = (self._tail + 1) % self._capacity
        return True

    def dequeue(self) -> Optional[str]:
        #头索引等于尾索引时 不允许出队操作
        if self._head != self._tail:
            # 返回头指针往后移动一个位置
            item = self._items[self._head]
            #头指针+1 如果溢出了就+1
            self._head = (self._head + 1) % self._capacity
            return item

    def __repr__(self) -> str:
        if self._tail >= self._head:
            return " ".join(item for item in self._items[self._head: self._tail])
        else:
            return " ".join(item for item in chain(self._items[self._head:], self._items[:self._tail]))


if __name__ == "__main__":
    q = CircularQueue(5)
    for i in range(5):
        q.enqueue(str(i))
    q.dequeue()
    q.dequeue()

    print(q)

6.5阻塞队列和并发队列

阻塞对列当队列数据为空或者为满时取数据和查数据的操作结果不会立马返回而是会阻塞直到插入一个数据和取出一个数据

并发队列当多线程操作同一份数据时会设计线程安全如何实现线程安全队列呢

最简单直接的实现方式是直接在 enqueue()、 dequeue() 方法上加锁，但是锁粒度大并发度会比较低（

基于数组的循环队列，利用 CAS 原子操作，可以实现非常高效的并发队列

）

6.6解答开篇

处理方式有两种

1.非阻塞直接返回结果要么none 要么数据

2.阻塞请求排队

6.2.1队列中链表和数组两种实现对于排队请求有什么区别呢

链表因为是具有无界的所以会导致过多的请求排队请求的时间会很长所以响应时间久（对于响应时间比较敏感的系统不太适合）

数组队列太大导致等待请求过多队列太小无法充分利用计算机优势

除了前面讲到队列应用在线程池请求排队的场景之外，队列可以应用在任何有限资源池中，用于排队请求，比如数据库连接池等。实际上，对于大部分资源有限的场景，当没有空闲资源时，基本上都可以通过“队列”这种数据结构来实现请求排队。