当前位置：首页 > news >正文

SIMCSE求相似度分数

news 2025/7/29 19:19:12

import torch
from transformers import AutoTokenizer, AutoModelForMaskedLM
from sklearn.metrics.pairwise import cosine_similarity# simcse相似度分数
def simcse_similar(model, tokenizer, text_a, text_b):inputs_source = tokenizer(text_a, return_tensors="pt")inputs_target = tokenizer(text_b, return_tensors="pt")outputs_source = model(**inputs_source, output_hidden_states=True)outputs_target = model(**inputs_target, output_hidden_states=True)source_embedding = outputs_source.hidden_states[-1][:, 0, :].squeeze()target_embedding = outputs_target.hidden_states[-1][:, 0, :].squeeze()with torch.no_grad():silimarity_score = cosine_similarity(source_embedding.reshape(1, -1), target_embedding.reshape(1, -1))[0][0]return silimarity_scoreif __name__ == '__main__':model = AutoModelForMaskedLM.from_pretrained('../Erlangshen-SimCSE-110M-Chinese')tokenizer = AutoTokenizer.from_pretrained('../Erlangshen-SimCSE-110M-Chinese')text_a = '城市缩写'text_b = '呼叫线体ID'similarScore = simcse_similar(model, tokenizer, text_a, text_b)print(similarScore)

http://www.lryc.cn/news/230209.html

相关文章：

java入门，从CK到一部分数据到mysql

LeetCode（13）除自身以外数组的乘积【数组/字符串】【中等】

WPF资源，静态资源，动态资源

绘图软件 OmniGraffle mac中文版特点说明

ai批量剪辑矩阵无人直播一站式托管系统源头技术开发

CCNA课程实验-14-Final_Lab

Latex在图表标题里面引用参考文献时，出现参考文献顺序混乱的解决方案（适用于bibtex）

多进程间通信学习之消息队列共享内存信号灯集

机器学习基础之《回归与聚类算法（6）—模型保存与加载》

修改Openwrt软路由的web端口

编程怎么学习视频教程，编程实例入门教程，中文编程开发语言工具下载

得帆信息携手深信服，联合打造高安全PaaS超融合一体化解决方案

arcgis--浮点型栅格数据转整型

nginx四层tcp负载均衡及主备、四层udp负载均衡及主备、7层http负载均衡及主备配置（wndows系统主备、负载均衡）

Electron 控制屏幕亮度

TSINGSEE视频汇聚管理与AI算法视频质量检测方案

linux系统中文件系统和挂载点的联系和区别？

CTFSHOW 文件上传

自组织竞争网络在模式分类中的应用——患者癌症发病预测

神经网络中的量化与蒸馏

数据库——表结构相关SQL

python 爬虫之requests 库以及相关函数的详细介绍

突破职场竞争，引领未来发展：考取《研发效能(DevOps)工程师职业技术认证》

设计模式例子

腾讯云入侵

第二章智能家居子系统——C51单片机配置波特率115200

registry镜像仓库通过HTTP API删除镜像

【ATTCK】ATTCK视角下的水坑钓鱼攻防战法

【算法】算法题-20231115

Rabin Karp 字符匹配算法