当前位置: 首页 > news >正文

MurmurHash算法

MurmurHash:(multiply and rotate) and (multiply and rotate) Hash,乘法和旋转的hash 算法。

一、哈希函数

散列函数(英语:Hash function)又称散列算法、哈希函数,是一种从任何一种数据中创建小的数字“指纹”的方法。

散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。

该函数将数据打乱混合,重新创建一个叫做散列值(hash values,hash codes)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。好的散列函数在输入域中很少出现散列冲突。

特点:

加密:加密存在数据库中的密码(password)字符串,由于散列算法所计算出来的散列值(Hash Value)具有不可逆(无法逆向演算回原本的数值)的性质,因此可有效的保护密码。

压缩:把任意长度的输入通过散列算法变换成固定长度的输出。

场景:

保护资料、确保传递真实的信息、散列表、错误校正、语音识别、信息安全...

常见哈希算法:

MD系列(MD5)、SHA系列(SHA-1)、CRC,甚至JDK hashCode()也是哈希算法的一种。可以将他们分成三代:

第一代:SHA-1(1993),MD5(1992),CRC(1975),Lookup3(2006)

第二代:MurmurHash(2008)

第三代:CityHash, SpookyHash(2011)

分类可分为加密型、非加密型:

加密型:MD系列(MD5)、SHA系列(SHA-1)

非加密型:CRC、MurmurHash

二、MurmurHash

MurmurHash 是一种非加密型哈希函数,适用于一般的哈希检索操作。由Austin Appleby在2008年发明,并出现了多个变种,都已经发布到了公有领域(public domain)。与其它流行的哈希函数相比,对于规律性较强的key,MurmurHash的随机分布特征表现更良好。

特点:

1.快 ,MurMurHash3 比 MD5 快

2.低碰撞,MurMurHash3 128 位版本哈希值是 128 位的,跟 MD5 一样。128 位的哈希值,在数据量只有千万级别的情况下,基本不用担心碰撞。

3.高混淆,散列值比较“均匀”,如果用于哈希表,布隆过滤器等, 元素就会均匀分布。

广泛应用于各开源产品,Java 界中 Redis,Memcached,Cassandra,Hadoop,HBase,Lucene,spark,nginx,常见的大数据库底层,都使用了这个算法作为底层的存储算法。

MurMurHash3 128 位版本的速度是 MD5 的十倍。有趣的是,MurMurHash3 生成 32 位哈希的用时比生成 128 位哈希的用时要长。原因在于MurMurHash3_128 针对现代 x64 平台cpu进行了优化。

三、MurmurHash的使用

Java版:google guava 包中提供了使用工具类:

<groupId>com.google.guava</groupId><artifactId>guava</artifactId>
<version>30.1.1-jre</version>
package com.joker.cloud.linserver.conf.murmur;import com.google.common.hash.HashFunction;
import com.google.common.hash.Hashing;import java.nio.charset.StandardCharsets;/*** MurmurHashTest** @author joker* @version 1.0* 2023/3/7 14:29**/public class MurmurHashTest {public static void main(String[] args) {String base64 = "CSHyrMyg087o3JWW7EWn+llHweWg1OVpxupHegjYREjousvZYdaWMCDWk1nEvDEFpzdsxSBunEPdUlgdu4+lCspuK32t68ruwKCU4KOM8ZIGXjjp10/lMrymjdYYLaIiAhdAHeOfGz+RfYUlJXGn4iV0tahHCGeh9//Ap6Mv6nhxxrbxWwYDnYC6PRvdoMpwaVydfGfValGk+ygZnnr84uAzPytXqGzF23M6gNWtFT29yTMdK3vZaUtkE3AaybRO0DLBkBnqeWXnBNqFQHWnHg==";String hash128String = getHexHash128String(base64);System.out.println(hash128String);}public static String getHexHash128String(String str) {HashFunction hashFunction = Hashing.murmur3_128();return hashFunction.hashString(str, StandardCharsets.UTF_8).toString();}
}

性能测试:

package com.joker.cloud.linserver.conf.murmur;import com.google.common.hash.HashFunction;
import com.google.common.hash.Hashing;import java.nio.charset.StandardCharsets;/*** MurmurHashTest** @author joker* @version 1.0* 2023/3/7 14:29**/public class MurmurHashTest {public static void main(String[] args) {String base64 = "CSHyrMyg087o3JWW7EWn+llHweWg1OVpxupHegjYREjousvZYdaWMCDWk1nEvDEFpzdsxSBunEPdUlgdu4+lCspuK32t68ruwKCU4KOM8ZIGXjjp10/lMrymjdYYLaIiAhdAHeOfGz+RfYUlJXGn4iV0tahHCGeh9//Ap6Mv6nhxxrbxWwYDnYC6PRvdoMpwaVydfGfValGk+ygZnnr84uAzPytXqGzF23M6gNWtFT29yTMdK3vZaUtkE3AaybRO0DLBkBnqeWXnBNqFQHWnHg==";String hash128String = getHexHash128String(base64);System.out.println(hash128String);long l = System.nanoTime();int num = 10000000;for (int i = 0; i < num; i++) {String hexHashString1 = getHexHash128String(base64);}long time = System.nanoTime() - l;System.out.println(num+"条数据,一共花费时间:" + time / (1000 * 1000 * 1000) + "秒");long ns = time / (num);System.out.println(num+"条数据,每条数据花费时间:" + ns + "纳秒");}public static String getHexHash128String(String str) {HashFunction hashFunction = Hashing.murmur3_128();return hashFunction.hashString(str, StandardCharsets.UTF_8).toString();}
}

32位与128位:

MurmurHash 算法提供了两种长度的哈希值,一种是 32bits,一种是 128bits。为了让最终生成的短网址尽可能短,可以选择 32bits 的哈希值。

package com.joker.cloud.linserver.conf.murmur;import com.google.common.hash.HashFunction;
import com.google.common.hash.Hashing;import java.nio.charset.StandardCharsets;/*** MurmurHashTest** @author joker* @version 1.0* 2023/3/7 14:29**/public class MurmurHashTest {public static String getHexHash32String(String str) {HashFunction hashFunction = Hashing.murmur3_32();return hashFunction.hashString(str, StandardCharsets.UTF_8).toString();}public static String getHexHash128String(String str) {HashFunction hashFunction = Hashing.murmur3_128();return hashFunction.hashString(str, StandardCharsets.UTF_8).toString();}public static Long getHexHash32Long(String str) {HashFunction hashFunction = Hashing.murmur3_32();return hashFunction.hashString(str, StandardCharsets.UTF_8).padToLong();}}

常用于长链接转短链接:

实现思路是通过哈希算法生成短网址。采用计算速度快、冲突概率小的 MurmurHash 算法,并将计算得到的 10 进制数,转化成 62 进制表示法,进一步缩短短网址的长度。对于哈希算法的哈希冲突问题,通过给原始网址添加特殊前缀字符,重新计算哈希值的方法来解决。

长链接转短链接-CSDN博客

http://www.lryc.cn/news/307757.html

相关文章:

  • CSRF靶场实战
  • 小程序性能优化
  • C++拿几道题练练手吧
  • 【国产MCU】-CH32V307-I2C控制器
  • k8s pod理论
  • 智慧应急:构建全方位、立体化的安全保障网络
  • 国际黄金价格是什么?和黄金价格有何区别?
  • React入门简介
  • 强化学习_06_pytorch-PPO实践(Hopper-v4)
  • Scala Intellij编译错误:idea报错xxxx“is already defined as”
  • 面试笔记系列五之MySql+Mybaits基础知识点整理及常见面试题
  • 掌握Pillow:Python图像处理的艺术
  • React最常用的几个hook
  • 自然语言处理Gensim入门:建模与模型保存
  • Windows 10中Visual Studio Code(VSCode)无法自动打开终端的解决办法
  • python dictionary 字典中的内置函数介绍及其示例
  • pdf转word文档怎么转?分享4种转换方法
  • 深度测试:指定DoC ID对ES写入性能的影响
  • 【JGit】 AddCommand 新增的文件不能添加到暂存区
  • golang学习6,glang的web的restful接口传参
  • Carla自动驾驶仿真八:两种查找CARLA地图坐标点的方法
  • HarmonyOS | 状态管理(八) | PersistentStorage(持久化存储UI状态)
  • Git 突破 文件尺寸限制
  • HarmonyOS开发云工程与开发云函数
  • SpringMVC了解
  • day44((VueJS)路由的懒加载使用 路由的元信息(meta) 路由守卫函数 vant组件库的应用)
  • 非线性优化资料整理
  • 踩坑wow.js 和animate.css一起使用没有效果
  • Laravel - API 项目适用的图片验证码
  • iMazing3安全吗?好不好用?值不值得下载