当前位置: 首页 > news >正文

HashSet的详细介绍

一、HashSet整体介绍

HashSet 是 Java 中的一个集合类,它实现了 Set 接口,用于存储不重复的元素。它是基于哈希表的数据结构实现的。

HashSet 的特点如下:

  1. 不允许存储重复的元素:HashSet 中的元素是唯一的,如果尝试将重复的元素添加到 HashSet 中,添加操作将被忽略。
  2. 无序性:HashSet 中的元素没有固定的顺序,元素的存储和检索顺序是不确定的。
  3. 允许存储 null 元素:HashSet 允许存储 null 元素,但只能存储一个 null 值。

HashSet 的内部实现是基于哈希表(HashMap)的,它使用哈希函数将元素映射到数组的索引位置。HashSet 的底层数据结构是一个数组,每个数组索引处存储一个链表(或者在 JDK 1.8 之后,当链表长度超过阈值时,会转换为红黑树)。

HashSet 的主要操作包括添加元素、删除元素、判断元素是否存在和遍历元素。添加元素使用 add() 方法,删除元素使用 remove() 方法,判断元素是否存在使用 contains() 方法,遍历元素可以使用迭代器或者增强型 for 循环。

当在 HashSet 中执行添加、删除和判断元素是否存在的操作时,会根据元素的哈希值和相等性进行查找和操作。因此,为了正确使用 HashSet,需要确保存储的元素正确实现了 hashCode() 和 equals() 方法。

HashSet 的性能在大多数操作上都是常数时间复杂度 O(1),但在哈希冲突较多时,链表的遍历或者红黑树的操作可能会导致性能下降,最坏情况下的时间复杂度为 O(n)。

二、HashSet的扩容机制是怎么样的?

需要注意的是,HashSet 是非线程安全的,如果在多个线程中同时访问和修改 HashSet,必须采取额外的同步措施或者使用线程安全的集合类。

当 HashSet 中的元素数量超过数组长度的0.75倍时,就会触发扩容操作。HashSet 的扩容机制是为了在保持性能的同时,尽量减少哈希冲突的发生。

HashSet 的扩容过程包括以下步骤:

  1. 创建一个新的、更大容量的数组。
  2. 将旧数组中的元素逐个重新计算哈希值,并根据新数组的长度计算新的索引位置。
  3. 将元素插入到新数组的对应索引位置上。
  4. 重复步骤2和步骤3,直到将旧数组中的所有元素都插入到新数组中。
  5. 将 HashSet 的数组引用指向新的数组。

扩容操作的目的是为了增加数组的容量,从而减少哈希冲突的概率。当数组的容量不足时,即使哈希函数分布良好,也会出现多个元素被映射到同一个数组索引的情况,从而导致链表或树结构的形成,影响查找和插入的效率。

通过扩容操作,HashSet 会创建一个更大的数组,并重新计算每个元素在新数组中的索引。这样,元素在新数组中的分布会更加均匀,减少哈希冲突的发生,提高了查找和插入的性能。

为什么选择0.75作为扩容的触发因子呢?这是一个经验值,经过实践得出的一个平衡点。当数组长度达到容量的0.75倍时,既能够保持较低的哈希冲突率,又能够减少频繁的扩容操作,提高性能。

需要注意的是,扩容操作是一个相对耗时的操作,因为需要重新计算元素的哈希值和重新插入到新数组中。因此,在预知元素数量较大的情况下,可以通过构造函数或者 initialCapacity 参数提前指定初始容量,以减少扩容操作的次数,提高性能。

三、什么是哈希冲突?

哈希冲突指的是不同的元素通过哈希函数计算得到相同的哈希值,从而导致它们在哈希表中被映射到相同的数组索引位置。

在哈希表中,通过哈希函数将元素映射到数组的索引位置。理想情况下,每个元素都应该通过哈希函数计算得到唯一的哈希值,并被映射到不同的数组索引上,这样可以达到快速的查找和插入操作。

然而,在实际情况中,由于哈希函数的计算过程无法避免的会产生冲突。哈希函数的输出空间是有限的,而输入空间是无限的,这就意味着不同的元素可能会产生相同的哈希值。

当不同的元素经过哈希函数计算后得到相同的哈希值时,就会发生哈希冲突。这会导致不同的元素被映射到相同的数组索引位置,形成链表或树结构。在哈希表中查找或插入元素时,就需要在这些冲突的元素中进行进一步的查找或插入操作,从而影响了查找和插入的效率。

为了解决哈希冲突,哈希表中通常采用的方法是使用链表或树来处理冲突的元素。当哈希冲突发生时,将新的元素插入到链表或树的末尾,或者在链表长度超过一定阈值时,将链表转换为红黑树。这样可以提高查找和插入的效率。

然而,当哈希冲突过多时,链表或树的长度会过长,导致性能下降。为了尽量减少哈希冲突的发生,可以通过合理设计哈希函数、增加数组的长度(扩容)等方式来优化哈希表的性能。

四、哈希函数是怎么计算哈希值的?计算出哈希值之后又是怎么映射到数组上的?

哈希函数是将输入的数据转换成哈希值的一种算法。它的目的是将数据尽可能均匀地映射到哈希表的索引位置上,以便实现高效的查找和插入操作。

哈希函数的计算过程通常包括以下几个步骤:

  1. 将输入的数据(例如字符串、数字等)转换成一个整数或固定长度的字节数组。
  2. 对这个整数或字节数组进行一系列计算,如位运算、数学运算、异或操作等,以获取一个哈希码。
  3. 将哈希码映射到哈希表的数组索引位置上,通常使用取模运算(对数组长度取模)来实现。

在映射到数组索引位置时,取模运算可以将哈希码的值限定在哈希表数组的有效范围内,确保映射到正确的索引位置。例如,如果哈希表的数组长度是10,哈希码为25,那么取模运算就会将其映射到索引位置为5的数组上。

需要注意的是,好的哈希函数应该具有以下特点:

  1. 输出的哈希值应该尽可能均匀地分布在哈希表的索引位置上,以减少哈希冲突的发生。
  2. 输入相同的数据应该始终得到相同的哈希值,保证查找和插入的正确性。
  3. 哈希函数的计算应该尽量高效,避免耗费过多的时间和计算资源。

哈希函数的选择会根据具体的应用场景和数据特点来确定。常见的哈希函数包括 MD5、SHA-1、SHA-256 等。在实际应用中,也可以根据数据的特点设计自定义的哈希函数。

http://www.lryc.cn/news/112650.html

相关文章:

  • 【SCI征稿】JCR1区,中科院2区,有关大数据、人工智能、机器学习的应用研究均可
  • 【UE】AI导航,多个导航物体无法走到同一终点问题
  • 途游游戏 x 极狐GitLab “通关” DevOps :单元测试从无到优,覆盖率 0→80%
  • 【云原生】Docker-Compose全方面学习
  • 基于 Redux + TypeScript 实现强类型检查和对 Json 的数据清理
  • HIVE语法优化之Join优化
  • 如何申请境内金融信息服务报备
  • VS code:Task
  • 《Java-SE-第三十章》之哲学家就餐问题
  • 关于接口测试用例设计的一些思考
  • gin和gorm框架安装
  • 今天小编继续给大家分享五款高效的电脑宝藏软件
  • SQL Server数据库如何添加mysql链接服务器(Windows系统)
  • scala连接mysql数据库
  • datax-web登陆时出现账号密码错误
  • Redis 和 MySQL如何保证数据一致性
  • VR虚拟仿真技术在道路桥梁中有哪些具体应用?
  • 如何找到死锁的线程?_java都学什么
  • MFC遍历目录包括子目录下所有文件、特定类型文件
  • Kubernetes 集群calico网络故障排查思路
  • OBS视频视频人物实时扣图方法(四种方式)
  • DROP USER c##xyt CASCADE > ORA-01940: 无法删除当前连接的用户
  • 【JAVA】-【IO流】
  • PoseFormer:基于视频的2D-to-3D单人姿态估计
  • Fortinet发布2023年第二季度财报
  • 智慧消防 | 气体灭火系统压力在线监测正当其时
  • 并查集练习 — 扩展问题(二)
  • iTOP-i.MX8MM开发板添加 isb 转串口设备驱动
  • Golang实现Redis分布式锁解决秒杀问题
  • 狂神说-通俗易懂的23种设计模式