当前位置: 首页 > news >正文

【数据结构与算法】哈希表拾遗

一.什么是哈希表

哈希表是一种基于数组和哈希函数实现的 键值对映射结构,可以实现 常数级别的插入、查找和删除,是高效的数据结构。
其中哈希表的核心思想:把“键”通过哈希函数转换为数组下标,从而将数据直接存储到对应位置上,进而在查找上实现O(1)的复杂度。
eg:

index = hash(key) % 表大小;
table[index] = value;

二.哈希函数

哈希函数的映射方式是:如何将“键”转换为数组中的索引值(,以便将其映射到哈希表的某个位置。下面我们介绍两个最常见的映射方法。

1.直接定址法

直接使用key本身或者某个线性函数作为哈希地址:

hash(key) = key 或 hash(key) = a × key + b

缺点:

  • 要求 key 是整数并且范围较小、稠密
  • 浪费空间(如果 key 很大但稀疏)

2.除留余数法

将 key 除以哈希表长度,取余作为哈希地址:

hash(key) = key % mod

一般会使用小于等于表长的最大质数作为mod可以减少冲突。

优点:

  • 通用性强,适用于整数 key
  • 简单易实现

3.多项式哈希

字符串不能直接参与数学运算,需逐字符映射:

hash(s) = s[0] × pⁿ⁻¹ + s[1] × pⁿ⁻² + ... + s[n-1] × p⁰

优点:

  • 可适配英文、数字等字符串
  • 冲突率低,适合文本类 key

eg:

  • 字符串:“abc”
  • ASCII值:a=97,b=98,c=99
  • 选择一个小的质数 p = 31
hash("abc") = 97 × 31² + 98 × 31¹ + 99 × 31= 97 × 961  + 98 × 31   + 99 × 1= 97 × 961   = 93217  98 × 31    = 3038   99 × 1     = 99合计:   93217 + 3038 + 99 = **96354**

如果哈希表长为10007:

96354 % 10007 = 6276

最终哈希表中的桶下标就是 6276。
其中p应该怎么选择呢

  • 必须是一个质数 可以减少哈希冲突,比如 31, 33, 131, 1313, 13331 等
  • 应大于字符集大小 如果字符是 ASCII,最好 p > 128;如果是 Unicode,p > 65536
  • 不宜太大 太大会造成哈希值溢出,计算效率低

常用的p值推荐:

  • 31 常用于小写英文字母字符串
  • 131 中文支持更好,冲突率低
  • 33 GCC 早期使用
  • 5381 被著名的 djb2 哈希算法使用
  • 65599 sdbm 哈希算法

三.哈希冲突与解决

1.是什么是哈希冲突

不同的键经过哈希函数计算后,映射到了哈希表中的同一个索引位置。

2.开放地址法

当发生冲突的时候使用不同的方法寻找下一个空位置:

1.线性探测

从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。
缺点:
容易产生“聚集”:连续冲突元素形成连续占用空间,导致探测效率下降。

2.平方探测

平方探测法测试按照这样的规则顺序探测:

Hash(key) = (Hash(key) + d) % 11
d = 1^2, -1^2, 2^2, -2^2......

优点:

  • 避免一次聚集,冲突分布更均匀
  • 比线性探测在高负载下表现更好

缺点:

  • 实现略复杂
  • 可能出现“二次聚集”
  • 如果哈希表大小不是质数,可能无法探测到所有桶(导致无法插入)

在开放地址法哈希表中,删除元素不能直接清空,而是通过设置“删除标志位” 确保查找不会中断,能正常插入。

3.链地址法

每个哈希桶不只存一个元素,而是存一个链表
当多个键通过哈希函数映射到同一个桶时,它们就被链接到该桶的链表上。
在这里插入图片描述

C++中的unordered_map/unordered_set实现采用“链地址法 + 链表结构 + 动态 Rehash 机制”相结合的方式。
Rehash(再哈希)的步骤

  1. 分配一个新的更大数组(通常是原来容量的 2 倍或最接近的质数)
  2. 重新遍历旧哈希表
  3. 对每个旧元素重新计算新哈希值(因为 table_size 改变了)
  4. 插入到新表对应的新桶中(重新分配链表)
  5. 释放旧表空间
http://www.lryc.cn/news/579145.html

相关文章:

  • Windows下docker安装
  • 前端下载xls文档乱码修复
  • Java学习第五部分——API部分
  • vue-36(为组件编写单元测试:属性、事件和方法)
  • Android15 开机动画播放结束之后如何直接启动应用
  • NVIDIA智能汽车技术公开课笔记
  • 胡兵全新时尚生活频道上线,开启多维生活美学新篇
  • 08_Excel 导入 - 用户信息批量导入
  • 【Erdas实验教程】024:遥感图像辐射增强(亮度反转Brightness Inversion)
  • 优雅草蜻蜓R实时音视频会议系统技术规划与全球RTC开源技术全景分析·优雅草卓伊凡|麻子|贝贝|clam
  • 远程问诊选声网视频通话,画面不卡音质更清楚
  • iOS重构期调试实战:架构升级中的性能与数据保障策略
  • 在mac下手动编译迁移的android版webrtc组件
  • Docker Dify安装 完整版本
  • 「Java流程控制」跳转语句
  • 【数据结构】排序算法:冒泡与快速
  • OWASP Top 10 是什么?
  • 胡兵创立时尚生活频道《HUBING SELECTS胡兵智选》担任主编深耕智选生活
  • java实现发送短信
  • QT6 源(147)模型视图架构里的表格窗体 QTableWidget 的范例代码举例,以及其条目 QTableWidgetItem 类型的源代码。
  • 【嵌入式电机控制#6】编码器原理与内部构造
  • HTTP 协议深入理解
  • Django 安装使用教程
  • Day3.常见音频场景
  • 动手学Dify:自定义工具与沙盒
  • 澳鹏重磅发布MediGo医疗大模型数据开发平台 破解医疗AI数据瓶颈
  • 【docker部署】在服务器上使用docker
  • 【深度学习-Day 34】CNN实战:从零构建CIFAR-10图像分类器(PyTorch)
  • CISSP知识点汇总-安全与风险管理
  • 智能学号抽取系统 V3.7.5 —— 一个基于 Vue.js 的交互式网页应用