当前位置: 首页 > news >正文

当前目录下的excel文件的两列内容的相似度比较

# -- coding: utf-8 --**
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import pandas as pd
import os

# 获取当前目录
current_dir = os.getcwd()

# 获取当前目录下所有xlsx文件名
xlsx_files = [file for file in os.listdir(current_dir) if file.endswith(".xlsx")]
# 打印xlsx文件名
for file in xlsx_files:
print(file)
# 读取Excel文件
excel_file = file
data = pd.read_excel(excel_file)
# 提取第3列和第5列的值
column3_values = data.iloc[:, 1] # 第3列的值
column5_values = data.iloc[:, 3] # 第5列的值

# 打印提取的值
print("第3列的值:")
print(column3_values)

print("\n第5列的值:")
print(column5_values)

print(len(column3_values))
print(len(column5_values))
#
res=[]
# # 两段话
for i in range(len(column3_values)):
# 创建计数向量器
vectorizer = CountVectorizer().fit_transform([column3_values[i], column5_values[i]])
# 计算余弦相似度
cosine_sim = cosine_similarity(vectorizer)

# 提取余弦相似度值
similarity_value = cosine_sim[0][1]
if similarity_value>0.3:
res.append("正确")
elif similarity_value>0.05 and similarity_value<0.3:
res.append("部分正确")
else:
res.append("错误")
# res.append(similarity_value)

print("两段话的余弦相似度:", similarity_value)


# 指定txt文件名
txt_file =excel_file.replace(".xlsx","")+".txt"

# 将列表逐行写入txt文件
with open(txt_file, 'w') as f:
for item in res:
f.write("%s\n" % item)

print("内容已写入到", txt_file)

http://www.lryc.cn/news/141531.html

相关文章:

  • Cookie for Mac:隐私保护工具保护您的在线隐私
  • Huggingface训练Transformer
  • IA-YOLO项目中DIP模块的初级解读
  • MathType7.4mac最新版本数学公式编辑器安装教程
  • 为Claude的分析内容做准备:提取PDF页面内容的简易应用程序
  • js中作用域的理解?
  • 机器学习基础之《分类算法(4)—案例:预测facebook签到位置》
  • 【Java】反射 之 调用方法
  • Java——单例设计模式
  • Java实现excel表数据的批量存储(结合easyexcel插件)
  • Config:客户端连接服务器访问远程
  • 【KMP算法-代码随想录】
  • 【手写promise——基本功能、链式调用、promise.all、promise.race】
  • 计算机网络-笔记-第二章-物理层
  • 前端开发中的单伪标签清除和双伪标签清除
  • 云计算中的数据安全与隐私保护策略
  • MacOS软件安装包分享(附安装教程)
  • 【linux进程概念】
  • 直击成都国际车展:远航汽车多款车型登陆车展,打造完美驾乘体验
  • android nv21 转 yuv420sp
  • 使用Nacos与Spring Boot实现配置管理
  • 初识【类和对象】
  • 软考高级系统架构设计师系列论文八十六:论企业应用集成
  • HarmonyOS ArkUI 属性动画入门详解
  • 基于XGBoots预测A股大盘《上证指数》(代码+数据+一键可运行)
  • 5G NR:PRACH频域资源
  • 设计模式——组合模式
  • get属性是什么?有什么用?在什么场景用?get会被Json序列化?
  • 这可能是你看过最详细的 [八大排序算法]
  • docker的安装