查找

静态查找：数据集合稳定，不需要添加删除元素的查找操作。

动态查找：查找过程中需要同时添加或删除元素。

查找结构

静态：线性表

动态：二叉排序树、哈希

1. 顺序查找：遍历待查数组，逐个与关键字比较，匹配则查找成功。O(n)

# 设置一个哨兵
def SeqSearch(Array, key):
    if Array is None or len(Array) == 0:
        return None
    i = 0
    Array.append(key)
    while Array[i] != key:
        i += 1
    return None if i == len(Array) else i

2. 二分查找

数组必须要有序；数组存在明确的上下界；能够通过索引访问（所以链表就很不适合二分查找）。

# 最普通的情况，规定有序数组不重复
class Solution:
    def search(self, nums: List[int], target: int) -> int:
        if nums == None or len(nums) == 0:
            return -1
        low = 0
        high = len(nums) - 1
        while low <= high:   # 双端闭区间[low, high]查找 
            mid = (low + high) // 2
            if nums[mid] == target:
                return mid
            elif nums[mid] > target:
                high = mid - 1
            elif nums[mid] < target:
                low = mid + 1  
        return -1

# 寻找左侧边界的二分搜索。初始化 right = nums.length，决定了「搜索区间」是 [left, right)，所以决定了 while (left < right)，同时也决定了 left = mid + 1 和 right = mid
# 因为需找到 target 的最左侧索引，所以当 nums[mid] == target 时不要立即返回，而要收紧右侧边界以锁定左侧边界。

def search(nums, target):
        if nums == None or len(nums) == 0:
            return -1
        low = 0
        high = len(nums)
        while low < high:   # [low, high) 上搜索
            mid = (low + high) // 2
            if nums[mid] == target:
                high = mid   # 找到target之后不要立即返回，缩小搜索区间上界，在[low, mid)中继续搜索，锁定左侧边界low
            elif nums[mid] > target:
                high = mid
            elif nums[mid] < target:
                low = mid + 1 
        if low == len(nums): # target 比所有数都大
            return -1
        return low if nums[low] == target else -1  # 如果找到，low应该指向左侧边界

# 寻找右侧边界的二分搜索
def search(nums, target):
        if nums == None or len(nums) == 0:
            return -1
        low = 0
        high = len(nums)
        while low < high:   # [low, high) 上搜索
            mid = (low + high) // 2
            if nums[mid] == target:
                low = mid + 1   # 找到target之后不要立即返回，缩小搜索区间下界，在[mid+1, high)中继续搜索，锁定右侧边界high-1
            elif nums[mid] > target:
                high = mid
            elif nums[mid] < target:
                low = mid + 1 
        if low-1 == len(nums): # target 比所有数都大
            return -1
        return low-1 if nums[low-1] == target else -1  # 若找到，最后low == high，右侧边界在 high-1

# 递归实现二分搜索
class Solution:
    def search(self, nums: List[int], target: int) -> int:
        if nums == None or len(nums) == 0:
            return -1
        return self.recursiveSearch(nums, 0, len(nums)-1, target)
    
    def recursiveSearch(self, nums, low, high, target):
        if low > high:  # 双端闭区间搜索
            return -1
        mid = (low+high)//2
        if nums[mid] == target:
            return mid
        elif nums[mid] > target:
            return self.recursiveSearch(nums, low, mid-1, target)
        elif nums[mid] < target:
            return self.recursiveSearch(nums, mid+1, high, target)
        return -1

3. 插值查找（按比例查找）

数据变化均匀的情况下效率比二分要高。和二分相比唯一的不同在于mid = low + (key - a[low])/(a[high]-a[low])*(high-low)

4. 斐波那契查找（黄金比例查找）

根据斐波那契数列F[k]来放置mid。 F[k] = 1, 1, 2, 3, 5, 8, 13, ...

待查数组元素个数为F[k] - 1

mid = low + F[k-1] -1

def FibonacciSearch(data, key):
    F = [0,1]
    count = 1;
    length = len(data)
    low = 0
    high = length - 1  # 双端闭区间查找
    if(key < data[low] or key > data[high]):
        return -1
    
    while F[count] < length:  # 生成斐波那契数列
        F.append(F[count-1] + F[count])
        count = count + 1
    
    low = F[0]
    high = F[count]  # F[count] 大于或等于length
    
    while len(data)-1 < F[count-1]:  # 如果F[count-1]大于数组最大下标，第一次mid=0+F[count-1]就会越界，要将数据个数补全
        data.append(data[-1])

    while(low <= high):  # 双端闭区间
        mid = low + F[count-1]  # 计算当前分割下标
        if(data[mid] > key):    # 若查找记录小于当前分割记录
            high = mid-1      
            count = count-1     # 左边数组长度为F[count-1]
        elif(data[mid] < key):  # 若查找记录大于当前分割记录
            low = mid+1
            count = count-2     # 右边数组长度为F[count-2]
        else:                   # 若查找记录等于当前分割记录
            return mid
    return -1


data = [0,1,16,24,35,48,59,62,73,88,99]
key = 35
idx = FibonacciSearch(data, key)
print(data)
print('index for given key:', idx)

5. 线性索引

稠密索引：关键码对目标数据进行一定的提取。索引表对关键码排序形成。只需要对索引表的关键码二分查找即可。应用于数据量不是特别大的时候，因为会导致索引表也非常大。

分块索引：不要建立一个数据量等大小的索引表。各个块内部没有排序，各个块之间排序。

倒排索引：反过来由属性来确定记录。

二叉排序树（二叉搜索树）

插入和删除的效率不错，同时查找的效率也很高的算法。

满足：

　　左子树不为空时，左子树上所有节点的值小于它的根节点的值；

　　右子树不为空时，右子树上所有节点的值大于它的根节点的值；

　　左右子树也分别为二叉排序树。

中序遍历二叉排序树，就能得到一个有序序列。二叉树结构有利于插入删除操作。

查找、插入、删除

class Node:
    def __init__(self, data):
        self.data = data
        self.lchild = None
        self.rchild = None

class BST:
    def __init__(self, node_list):
        self.root = Node(node_list[0])
        for data in node_list[1:]:
            self.insert(data)  # 插入元素创建二叉排序树

    # 搜索
    def search(self, node, parent, key):  # 开始搜索的节点node，其父节点parent，关键字key
        if node is None:
            return False, node, parent
        if node.data == key:
            return True, node, parent  # 如果当前节点的val等于key，返回搜索结果
        if node.data > key:
            return self.search(node.lchild, node, data)  # 如果当前节点的val大于key，去左子树搜索 
        else:
            return self.search(node.rchild, node, data)  # 如果当前节点的val大于key，去右子树搜索

    # 插入
    def insert(self, data):
        flag, n, p = self.search(self.root, self.root, data)
        if not flag:  # 如果二叉排序中不存在待插入节点，找到新节点的父节点
            new_node = Node(data)  # 创建新节点
            if data > p.data:  # 判断新节点是父节点的左孩子还是右孩子，然后插入即可
                p.rchild = new_node
            else:
                p.lchild = new_node

    # 删除
    def delete(self, root, data):
        flag, n, p = self.search(root, root, data)
        if flag is False:
            print("无该关键字，删除失败")
        else:
            if n.lchild is None:  # 若待删节点n的左子树为空 
                if n == p.lchild:  # 若n是其父节点p的左子树，则n的右子树变为p的左子树
                    p.lchild = n.rchild
                else:
                    p.rchild = n.rchild  # 若n是p的右子树，则n的右子树变为p的右子树
          
            elif n.rchild is None:  # 若n的右子树为空
                if n == p.lchild:
                    p.lchild = n.lchild
                else:
                    p.rchild = n.lchild
   
            else:  # 若n的左右子树均不为空
                pre = n.rchild
                if pre.lchild is None:  # 若n的右子树的左子树为空
                    n.data = pre.data  # n右子树的数据赋给n
                    n.rchild = pre.rchild  # n的右子树变为n的右子树的右子树

                else:  # 若n的右子树的左子树不为空
                    next = pre.lchild 
                    while next.lchild is not None: # 一直向左遍历到左子树为空的节点
                        pre = next
                        next = next.lchild
                    n.data = next.data  # 把左子树为空的节点的数据赋给n
                    pre.lchild = next.rchild  # 该节点的右子树链到该节点的父节点的左子树


    # 先序遍历
    def preOrderTraverse(self, node):
        if node is not None:
            print(node.data)
            self.preOrderTraverse(node.lchild)
            self.preOrderTraverse(node.rchild)

    # 中序遍历
    def inOrderTraverse(self, node):
        if node is not None:
            self.inOrderTraverse(node.lchild)
            print(node.data)
            self.inOrderTraverse(node.rchild)

    # 后序遍历
    def postOrderTraverse(self, node):
        if node is not None:
            self.postOrderTraverse(node.lchild)
            self.postOrderTraverse(node.rchild)
            print(node.data)

a = [49, 38, 65, 97, 60, 76, 13, 27, 5, 1]
bst = BST(a)  # 创建二叉查找树
print('遍历')
bst.inOrderTraverse(bst.root)  # 中序遍历
print('删除元素')
bst.delete(bst.root, 49)
bst.inOrderTraverse(bst.root)
print('搜索')
res, node, parent = bst.search(bst.root, None, 97)
print(res, node.data, parent.data)

平衡二叉排序树 AVL

避免以下二叉排序树的情况，防止二叉排序树退化成链。

平衡二叉排序树：要么是一颗空树，要么是一颗二叉排序树，且左右子树深度之差的绝对值不超过1，且左右子树都是平衡二叉排序树。

构建方法：在构建二叉排序树时，每插入一个节点，就检查树的平衡性是否被破坏（平衡因子大于1，左子树深度-右子树深度）。如果被破坏，就旋转最小不平衡子树。遍历与查找和普通二叉排序树一样，但插入和删除需要考虑平衡性问题。

平衡被破坏的四种情况：

插入点位于X的左子节点的左子树——左左
插入点位于X的左子节点的右子树——左右
插入点位于X的右子节点的左子树——右左
插入点位于X的右子节点的右子树——右右

对于上面四中情况，可以分为两类：

1、外侧插入：左左、右右，都是又往边上发展了。
2、内侧插入：左右、右左，都是往里面来了些。

恢复平衡的方法：外侧插入单旋转、内侧插入双旋转。

先看图中外侧插入11，使得k2点平衡因子为3-1=2>1，为了恢复平衡，想象把k1点提起，k2自然下滑，把k1的右子树B挂到k2的左侧。

为什么这么做了：
　　1. 根据二叉排序树的性质，k2 > k1，所以k2必须成为新树形中的k1节点的右子节点。（k1向上提起，使k2自然下滑）
　　2. 同样根据性质，B子树的所有节点的键值都在k1和k2之间，也就是大于k1，小于k2，那就是在k1的右子树上，k2的左子树上，因此将B子树挂到k2的左侧（将B子树挂到k2的左侧）。最终调整后的图如上右图，这是左左，右右的情况一样。

注意调整后k1和k2的深度

def LL_Rotate(self, node):
        k1 = node.left    # 不平衡点的左子树k1
        node.left = k1.right    # k1的右子树的所有值都介于kl和node的值之间，所以将其设置为node的左子树
        k1.right = node  # 提起n点，node自然下滑。即node变为n的右子树
        node.height = max(self.height(node.left), self.height(node.right)) + 1
        k1.height = max(self.height(k1.left), self.height(node)) + 1
        return k1

def RR_Rotate(self, node):
    k1 = node.right
    node.right = k1.left
    k1.left = node
    node.height = max(self.height(node.right), self.height(node.left)) + 1
    k1.height = max(self.height(k1.right), self.height(node)) + 1
    return k1

再看内侧插入的情况，图中插入15后k3点不平衡，k1上提k3自然落下k1右子树挂到k3左端，这样单旋转后发现还是不平衡的。

所以就需要先对k1、k2进行单旋转，然后再对k2、k3单旋转。即先对k1做RR_rotate，再对k3做LL_rotate

def LR_rotate(self, node):
    node.left = self.RR_rotate(node.left)
    return self.LL_rotate(node)

右左的情况类似

def RL_rotate(self, node):
    node.right = self.LL_rotate(node.right)
    return self.RR_rotate(node)

插入：

def height(self, node):
    if node is None:
        return -1
    return node.height

def insert(self, key):
    self.root = self._insert(key, self.root)

def _insert(self, key, node):
    if node is None:  # 要插入的树空
        node = Node(key)
        return node
    if key == node.data:   # 要插入的树中存在重复元素
        print('重复元素，插入失败')
        return node
    if key < node.data:   # 要插入的值小于根节点
        node.left = self._insert(key, node.left)  # 插入左子树中
        # 判断平衡性
        if self.height(node.left) - self.height(node.right) > 1: 
            if key < node.left.data:  # 插入节点位于node左孩子的左子树中
                node = self.LL_rotate(node)   # 左左单旋转
            else:  
                node = self.LR_rotate(node)  # 插入的节点位于node左孩子的右子树中，左右双旋转

    elif key > node.data:   # 插入值大于根节点
        node.right = self._insert(key, node.right)  # 插入右子树中
        if self.height(node.right) - self.height(node.left) > 1:
            if key > node.right.data:
                node = self.RR_rotate(node)
            else:
                node = self.RL_rotate(node)
    node.height = max(self.height(node.left), self.height(node.right) + 1
    return node

删除：

　　1.当前节点为要删除的节点且是叶子（无子树），直接删除，当前节点（为None）的平衡不受影响。

　　2.当前节点为要删除的节点且只有一个左儿子或右儿子，用左儿子或右儿子代替当前节点，当前节点的平衡不受影响。

　　3.当前节点为要删除的节点且有左子树右子树：如果右子树高度较高，则从右子树选取最小节点，将其值赋予当前节点，然后删除右子树的最小节点。如果左子树高度较高，则从左子树选取最大节点，将其值赋予当前节点，然后删除左子树的最大节点。这样操作当前节点的平衡不会被破坏。

　　4.当前节点不是要删除的节点，则对其左子树或者右子树进行递归操作。当前节点的平衡条件可能会被破坏，需要进行平衡操作。

def search(self, node, key):
    if node is None:
        return False, node
    if node.data == key:
        return True, node
    if node.data > key:
        return self.search(node.lchild, key)
    else:
        return self.search(node.rchild, key)

def findMin(self, node):
    if node.left:  # 如果存在左子树，就一直去左子树里找最小
        return self.findMin(node.left)
    return node  # 没有左子树的话，当前根就是最小

def findMax(self, node):
    if node.right:  # 如果存在右子树，就去右子树找最大
        return self.findMax(node.right)
    return node  # 没有右子树的话，当前根就是最大


def delete(self, key):
    self.root = self.remove(key, self.root)

def remove(self, key, node):
    if node is None:    # node是None，两种情况：上来就是空树；递归到最后没有找到待删元素
        print("没找到关键字，删除失败")
        return node
    if key == node.data:  # 要删除的就是当前的根节点
        if node.left and node.right:   # 左右子树都不空
            if self.height(node.left) > self.height(node.right):  # 在高度更大的子树上进行操作
                # 左子树高度大，删除左子树中元素最大的的节点，同时将其值赋给当前根节点
                # 这样新的根节点值还是能保证比其左子树任意节点都大，node的平衡性不会被破坏
                maxNode = self.findMax(node.left)
                node.data = maxNode.data  # 因为当前根节点一定比其左子树任意节点都大
                node.left = self.remove(node.data, node.left)  # 去node的左子树把原来最大的元素节点删除
            else:
                # 右子树高度大
                minNode = self.findMin(node.right)
                node.data = minNode.data
                node.right = self.remove(node.data, node.right)
            node.height = max(self.height(node.left), self.height(node.right)) + 1
        
        else:  # 左右子树中有一个为空，或者全为空
            if node.right:  
                node = node.right  # 左空右不空，直接用右子树代替node
            elif node.left:
                node = node.left   # 右空左不空，左子树代替node
            node.height = max(self.height(node.left), self.height(node.right)) + 1
            else:
                node = None   # 都空，直接用None(也即左子树)代替node
   
    elif key < node.data:   # 要删除的不是当前子树的根节点，去其左子树或右子树递归删除，当前节点平衡性可能被破坏
        node.left = self.remove(key, node.left)  # 去node左子树删除，可能导致左低右高
        if self.height(node.right) - self.hight(node.left) > 1:  # 当前节点node不平衡，左低右高
            if self.height(node.right.left) > self.height(node.right.right):   # node右子树的左子树更高，双旋转
                node = self.RL_rotate(node)
            else:  # node右子树的右子树更高，右右单旋转
                node = self.RR_rotate(node)
        node.height = max(self.height(node.left), self.height(node.right)) + 1
    else: # key > node.data，去node的右子树递归删除
        node.right = self.remove(key, node.right)  
        if self.height(node.left) - self.height(node.right) > 1:  # node失去平衡，左高右低
            if self.height(node.left.right) > self.height(node.left.left):  # node左子树的右子树更高，双旋转
                node = self.LR_rotate(node)
            else:
                node = self.LL_rotate(node)  # 左左单旋转
        node.height = max(self.height(node.left), self.height(node.right)) + 1
    return node

多路查找树

降低对外部存储结构的访问次数。每一个节点的孩子可以多于两个，每个节点可以存储多个元素。

2-3树，每一个节点都具有两个孩子或三个孩子。左子树元素小于节点元素小于右子树元素。但不同于二叉排序树的是，2节点要么没孩子要么有两个孩子，不能只有一个孩子。3节点要么没孩子要么有三个孩子，且从左到右变大。2-3树所有叶子都要在同一层次上。