当前位置: 首页 > news >正文

SIMCSE求相似度分数

import torch
from transformers import AutoTokenizer, AutoModelForMaskedLM
from sklearn.metrics.pairwise import cosine_similarity# simcse相似度分数
def simcse_similar(model, tokenizer, text_a, text_b):inputs_source = tokenizer(text_a, return_tensors="pt")inputs_target = tokenizer(text_b, return_tensors="pt")outputs_source = model(**inputs_source, output_hidden_states=True)outputs_target = model(**inputs_target, output_hidden_states=True)source_embedding = outputs_source.hidden_states[-1][:, 0, :].squeeze()target_embedding = outputs_target.hidden_states[-1][:, 0, :].squeeze()with torch.no_grad():silimarity_score = cosine_similarity(source_embedding.reshape(1, -1), target_embedding.reshape(1, -1))[0][0]return silimarity_scoreif __name__ == '__main__':model = AutoModelForMaskedLM.from_pretrained('../Erlangshen-SimCSE-110M-Chinese')tokenizer = AutoTokenizer.from_pretrained('../Erlangshen-SimCSE-110M-Chinese')text_a = '城市缩写'text_b = '呼叫线体ID'similarScore = simcse_similar(model, tokenizer, text_a, text_b)print(similarScore)
http://www.lryc.cn/news/230209.html

相关文章:

  • java入门,从CK到一部分数据到mysql
  • LeetCode(13)除自身以外数组的乘积【数组/字符串】【中等】
  • WPF资源,静态资源,动态资源
  • 绘图软件 OmniGraffle mac中文版特点说明
  • ai批量剪辑矩阵无人直播一站式托管系统源头技术开发
  • CCNA课程实验-14-Final_Lab
  • Latex在图表标题里面引用参考文献时,出现参考文献顺序混乱的解决方案(适用于bibtex)
  • 多进程间通信学习之消息队列共享内存信号灯集
  • 机器学习基础之《回归与聚类算法(6)—模型保存与加载》
  • 修改Openwrt软路由的web端口
  • 编程怎么学习视频教程,编程实例入门教程,中文编程开发语言工具下载
  • 得帆信息携手深信服,联合打造高安全PaaS超融合一体化解决方案
  • arcgis--浮点型栅格数据转整型
  • nginx四层tcp负载均衡及主备、四层udp负载均衡及主备、7层http负载均衡及主备配置(wndows系统主备、负载均衡)
  • Electron 控制屏幕亮度
  • TSINGSEE视频汇聚管理与AI算法视频质量检测方案
  • linux系统中文件系统和挂载点的联系和区别?
  • CTFSHOW 文件上传
  • 自组织竞争网络在模式分类中的应用——患者癌症发病预测
  • 神经网络中的量化与蒸馏
  • 数据库——表结构相关SQL
  • python 爬虫之requests 库以及相关函数的详细介绍
  • 突破职场竞争,引领未来发展:考取《研发效能(DevOps)工程师职业技术认证》
  • 设计模式例子
  • 腾讯云入侵
  • 第二章 智能家居子系统——C51单片机 配置波特率115200
  • registry镜像仓库通过HTTP API删除镜像
  • 【ATTCK】ATTCK视角下的水坑钓鱼攻防战法
  • 【算法】算法题-20231115
  • Rabin Karp 字符匹配算法