当前位置: 首页 > news >正文

企业分类相似度筛选实战:基于规则与向量方法的对比分析

文章目录

  • 企业表相似类别筛选实战
    • 项目背景
    • 介绍
    • 效果展示
      • 基于规则的效果
      • 基于向量相似的效果
    • 说明
    • 相关文章推荐

企业表相似类别筛选实战

项目背景

在当下RAG(检索增强生成)技术应用不断发展的背景下,掌握文本相似算法不仅能够助力信息检索,还可用于评估生成式LLM的效果。

介绍

文本分类是现实生活中常见的任务之一。在企业分类中,类别数量通常达到数百个,为了方便理清这些类别间的关系、筛选出相似类别变得尤为重要。本项目旨在解决这一需求。

本项目的代码开源在GitHub,欢迎Star和Donate! 地址:https://github.com/JieShenAI/csdn/tree/main/25/01/文本相似_企业表筛选_实战

效果展示

本文通过基于规则的google_bleu方法基于向量的相似度计算,对企业类别间的相似度进行测算,并展示了两种方法的筛选结果。

候选集的表格为 alter_values.xls,通过遍历 init_values.xls 中的条目,从候选集中筛选出前 TopK 个最相似的条目。

基于规则的效果

规则方法主要基于字符层面的相似度计算,使用 google_bleu 算法完成,效果如下图所示:

在这里插入图片描述

行业分类属性列 来自 init_values.xls

【0-9】属性列,代表与行业分类属性列中值相似的前 Top 10 个值,相似程度从高到低递减,0 属性列为最相似。

google_bleu 支持字符串的相似得分计算,主要是基于字符层面的。

可以改进的点:在分词的时候,采用字分词,每个单字为一个词。在分词时,可通过引入 jieba分词 和自定义领域词典进行优化。

基于向量相似的效果

向量相似方法采用嵌入模型,能够抓取文本的深层语义信息,避免仅局限于字符表面匹配。

使用 jina-embeddings-v2-base-zh 作为嵌入模型,点击查看该模型的介绍 https://modelscope.cn/models/jinaai/jina-embeddings-v2-base-zh

在这里插入图片描述

使用基于向量的相似度计算,能够把握住文本深层次的语义信息,不会仅仅是表面的字符。

相比规则算法,向量方法能有效筛选出语义相近的类别,例如:

  • 规则方法可能错误地将“房地产中介服务”筛选为与“中 国 共 产 党 机 关”相关的条目;
  • 向量方法则能准确找到更贴合语义的结果,如“国家权力机构”或“共青团”。

基于规则

行业分类0123456789
中国共产党机关中国共产党机关中成药生产房地产中介服务国家机构国家权力机构国家行政机构其他国家机构公共安全管理机构生产专用起重机制造其他未列明国家机构

基于向量

行业分类0123456789
中国共产党机关中国共产党机关国家权力机构共青团国家行政机构人民检察院国家机构监察委员会、人民法院和人民检察院人民政协、民主党派人民政协基层群众自治组织及其他组织

可以发现基于规则找出的与中 国 共 产 党 机 关相关条目,其中居然包含有中成药生产房地产中介服务

说明

在这里插入图片描述

data: 存放原始数据目录;

rule.py: 基于规则的相似度筛选代码;

vector.py: 基于向量的相似度筛选代码;参考 chroma. https://python.langchain.com/docs/integrations/vectorstores/chroma/

向量筛选.csv规则筛选.csv 是最终的输出结果;

  • 代码复用:通过对两个表格与表头的替换,即可实现代码复用;

相关文章推荐

三种文本相似计算方法:规则、向量与大模型裁判.https://blog.csdn.net/sjxgghg/article/details/145209050

http://www.lryc.cn/news/522979.html

相关文章:

  • 2024年博客之星年度评选—创作影响力评审入围名单公布
  • 递归40题!再见递归
  • 社区版Dify实现文生视频 LLM+ComfyUI+混元视频
  • 【LLM】Openai-o1及o1类复现方法
  • jlatexmath-android如何实现自定义渲染字符
  • dockerhub上一些镜像
  • Python 爬虫学习指南与资料分享
  • TypeScript特有运算符和操作符
  • 介绍下常用的前端框架及时优缺点
  • MATLAB算法实战应用案例精讲-【数模应用】图形变换和复杂图形组合(附python和MATLAB代码实现)
  • SpringMVC 实战指南:打造高效 Web 应用的秘籍
  • doris: Flink导入数据
  • Nginx在Linux中的最小化安装方式
  • CSS布局新视角:BFC(块级格式化上下文)的作用与优势
  • PCL K4PCS算法实现点云粗配准【2025最新版】
  • 02IO篇(D2_深入IO模型)
  • 记录一次微信小程序使用云能力开发的过程
  • Learning Prompt
  • 事务处理系统 (Transaction Processing System, TPS)
  • 【PCIe 总线及设备入门学习专栏 5.3.2 -- PCIe 枚举与 PCIe PHY firmware 的区别与联系】
  • 职场的三个阶段及其应对规划:以前端开发工程师为例
  • 某讯一面,感觉问Redis的难度不是很大
  • RV1126+FFMPEG推流项目(9)AI和AENC模块绑定,并且开启线程采集
  • excel实用工具
  • 基于.Net Core+Vue的文件加密系统
  • 工业网口相机:如何通过调整网口参数设置,优化图像传输和网络性能,达到最大帧率
  • 深入理解 Windows Server 的核心功能:现代 IT 架构的基石
  • WEB渗透技术研究与安全防御
  • 智能学习平台系统设计与实现(代码+数据库+LW)
  • Java学习,List移动元素