哈希表

参考这篇博客,再加上自己的一些理解,总结了一下。

1. 概念

  哈希表也叫散列表,是一种查找算法,它尽量能不经过任何比较,通过一次存取就能得到所查找的数据元素。

因此需要存在一种映射关系,使每个关键字和哈希表中唯一一个存储位置相对应,这个映射关系叫做散列函数。

image_1bdfuqft41q3pircc2tilm1qs19.png-52kB

2. 常见的哈希函数

  • 直接定址法

  取关键字或关键字的某个线性函数值为哈希函数,即:

    h(key) = key 或者 h(key) = a*key + b

  • 数字分析法

  假设关键字是以r为基的数,并且哈希表中可能出现的关键字都是事先知道的,则可取关键字的若干数位组成哈希地址。

  • 平方取中法:

  取关键字平方后的中间几位为哈希地址。通常在选定哈希函数时不一定能知道关键字的全部情况,取其中的哪几位也不一定合适,而一个数平方后的中间几位数和数的每一位都相关,由此使随机分布的关键字得到的哈希地址也是随机的。取的位数由表长决定。

  • 折叠法

  将关键字分割成位数相同的几部分(最后一部分的位数可以不同),然后取这几部分的叠加和(舍去进位)作为哈希地址。

  • 除留余数法

   取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址,即:

    h(key) = key MOD p ,其中p <= m

  • 随机数法

  选择一个随机数,取关键字的随机函数值是它的哈希函数,即:

    h(key) = random(key)

3. 处理冲突

  讲道理,无论你的哈希函数设计得多巧妙,当关键数一多,必然会产生冲突,即两个关键字经过哈希函数后的值相同,这就需要一些冲突处理方式来解决。

  • 开放地址法

  hi = (h(key) + di) MOD m, 其中i =1,2,…,k(k ≤ m-1)

其中的di又有三种取法:
  a. di = 1,2,3,…,m-1,称线性探测再散列
  b. di = 12,-12,22,-22,32,…,±k2 (k ≤m/2),称二次探测再散列
  c. di = 伪随机数序列,称伪随机探测再散列

  • 再散列法

  hi = rhi(key) i = 1,2,…,k
  rhi是指不同的散列函数

  • 链地址法

  将所有关键字为同义词的数据元素存储在同一线性链表中。假设某散列函数产生的散列地址在区间[0,m-1]上,则设立一个指针型向量void *vec[m],其每个分量的初始状态都是空指针。凡散列地址为i的数据元素都插入到头指针为vec[i]的链表中。在链表中的插入位置可以在表头或表尾,也可以在表的中间,以保持同义词在同一线性链表中按关键字有序排列。

image_1bdfvsk7ij9nle91psrh511gn5m.png-82.2kB

  • 建立一个公共溢出区

4. 代码实现

    //例子以除留余数法和链地址法构造散列表
    #include <iostream>
    #include <fstream>
    using namespace std;
    #define LEN 13  
      
    struct hash_node {  
        int count;  
        struct hash_node *next;  
    };  
      
    int hash(int num)  
    {  
        return num % LEN;  
    }  
      
    void collision(struct hash_node *vec[], int elem, struct hash_node *new)  
    {  
        if (vec[elem] == NULL)  
            vec[elem] = new;  
        else  
        {  
            new -> next = vec[elem];  
            vec[elem] = new;  
        }  
    }  
      
      
    void create_hash(struct hash_node *vec[], int num)  
    {  
        ifstream in("data.in");  
        int i, tmp, arr[num];  
        struct hash_node *p;  
      
        for (i = 0; i < num; i++)  
            in >> arr[i];
            
        in.close();
      
        for (i = 0; i < num; i++) {  
            p = new hash_node;  
            p -> count = arr[i];  
            p -> next = NULL;  
      
            tmp = hash(arr[i]);  
            collision(vec, tmp, p);  
        }  
    }  
    
    
    
    //元素插入
    void insert_hash_node(struct hash_node *vec[], int data)  
    {  
        int tmp;  
        struct hash_node *p = new hash_node;  
        p -> count = data;  
        p -> next = NULL;  
      
        tmp = hash(data);  
        collision(vec, tmp, p);  
    }  
    
    //删除
    void delete_hash_node(struct hash_node *vec[], int data)  
    {  
        int elem;  
        struct hash_node *p, *tmp;  
      
        elem = hash(data);  
        if (vec[elem] == NULL) {  
            cout << "error";  
            return;
        }  
        else  
        {  
            tmp = vec[elem];  
            while (tmp -> count != data) {  
                if (tmp -> next == NULL) {  
                    cout << "error";  
                    return;
                }  
                p = tmp;  
                tmp = tmp -> next;  
            }  
            p -> next = tmp -> next;  
            delete tmp;
        }  
    }  
    
    
    //查找和前面类似,不赘述
原文地址:https://www.cnblogs.com/vachester/p/6698082.html