当前位置: 首页 > news >正文

算法 # SimHash 算法:文本相似度、文本去重、海量文本快速查询

SimHash

SimHash 是 Google 发明的海量网页去重的高效算法,将原始的文本映射为 64 位的二进制串,然后通过比较二进制的差异进而表示原始文本内容的差异。
传统的 Hash 算法只负责将原始内容尽量均匀随机地映射为一个 hash 值,原理上相当于伪随机数产生算法。SimHash 本身属于一种局部敏感哈希算法,产生的 hash 签名在一定程度上可以表征原内容的相似度。

SimHash算法分为5个步骤:分词、hash、加权、合并、降维。


100101 =》 加权(4)=》4 -4 -4 4 -4 4 (对于0这里是当-1用,不是传统意义上的0)
合并就是所有词求和,降维就是 >0 记1,<0 记0。

关于权重:暴力的权重策略就是对所有的词编号即可,但这个编号顺序用一些策略优化或许可以起到更好的效果。

文本相似度

海明距离: 两个码字的对应比特取值不同的比特数称为这两个码字的海明距离。一个有效编码集中, 任意两个码字的海明距离的最小值称为该编码集的海明距离

对每篇文档根据 SimHash 算出签名后,再计算两个签名的海明距离(两个二进制异或

http://www.lryc.cn/news/23881.html

相关文章:

  • Java程序设计-JSP程序设计-SSM校园二手交易系统
  • springBoot 消息转换器和自定义消息转换器
  • 机器学习笔记之流形模型——标准流模型基本介绍
  • MIT:只需一层RF传感器,就能为AR头显赋予“X光”穿透视力
  • 对 Dom 树的理解
  • 电商搜索入门
  • 4.3.1初阶数据结构(C语言)(无头不循环单链表)
  • 一文深度解读音视频行业技术发展历程
  • 面向对象拓展贴
  • Android仿QQ未读消息拖拽粘性效果
  • Linux 打包压缩解压指令 gzip bzip2 tar
  • 系统升级丨分享返佣,助力商企实现低成本高转化营销
  • 机试代码模板
  • Java性能优化-垃圾回收算法-理解CMS回收器
  • Oracle11G的表空间数据文件大小限制问题处理
  • 计算机三级|网络技术|备考指南|网络系统结构与设计的基本原则|1
  • 基于 TI Sitara系列 AM64x核心板——程序自启动说明
  • 自学5个月Java找到了9K的工作,我的方式值得大家借鉴 第一部分
  • 微电影广告的内容突破方案
  • 茌平区为什么越来越多的企业由请高新技术企业?山东同邦科技分享
  • 谷歌优化排名怎么做出来的?谷歌排名多久做上去?
  • 字节跳动青训营--Webpack
  • 微信多媒体文件speex格式转为mp3文件格式
  • IAP初探
  • 【组织架构】中国铁路兰州局集团有限公司
  • 【计算机三级网络技术】 第四篇 路由设计技术基础
  • 嵌入式工程师进阶,基于AM64x开发板的IPC多核开发案例分享
  • 腾讯安全与锐捷网络战略合作,威胁情报能力“被集成”
  • 接口自动化测试用例详解
  • 【数据库增删查改进阶版】保姆级教程带大家去学习更加复杂的sql语句,各种各样的约束以及各种各样的查询