当前位置: 首页 > news >正文

羲和数据集收集器1.0

为了提升问答对的提取能力并完善GUI,我们从以下几个方面进行改进:

增强文本清理和解析能力:确保能够更准确地识别问答对。
支持更多文件格式:除了现有的 .txt, .docx, 和 .pdf,可以考虑支持其他常见格式如 .xlsx 等。
优化GUI设计:提供更友好的用户界面,包括进度条、日志显示等。
错误处理和日志记录:增强错误处理机制,提供详细的日志记录。
以下是改进后的代码:

import os
import json
import fitz  # PyMuPDF
import docx
import re
import tkinter as tk
from tkinter import filedialog, messagebox, simpledialog
import logging
from threading import Thread# 设置日志记录
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')def clean_text(text):""" 清理文本,去除多余的空白字符和标点符号 """text = re.sub(r'\s+', ' ', text)  # 合并多个空白字符text = re.sub(r'[^\w\s]', '', text)  # 去除标点符号return text.strip()def extract_qa_pairs_from_txt(file_path):with open(file_path, 'r', encoding='utf-8') as f:content = f.read()content = clean_text(content)qa_pairs = extract_qa_pairs_from_content(content)return qa_pairsdef extract_qa_pairs_from_docx(file_path):doc = docx.Document(file_path)content = []for para in doc.paragraphs:content.append(para.text)for table in doc.tables:for row in table.rows:for cell in row.cells:content.append(cell.text)for rel in doc.part.rels.values():if "textBox" in rel.target_ref:text_box = rel.target_partfor element in text_box.element.body:if element.tag.endswith('p'):content.append(element.text)content = '\n'.join(content)conte
http://www.lryc.cn/news/480937.html

相关文章:

  • ENSP OSPF和BGP引入
  • 软件工程 软考
  • 证书学习(六)TSA 时间戳服务器原理 + 7 个免费时间戳服务器地址
  • NVR设备ONVIF接入平台EasyCVR私有化部署视频平台如何安装欧拉OpenEuler 20.3 MySQL
  • c中柔性数组
  • 图像信号处理器(ISP,Image Signal Processor)详解
  • 越权访问漏洞
  • 【Ant.designpro】上传图片
  • 为何选择Spring AI Alibaba开发智能客服平台?
  • HiveSQL 中判断字段是否包含某个值的方法
  • Nginx简易配置将内网网站ssh转发到外网
  • 【go从零单排】error错误处理及封装
  • 全平台设置jetbrains mono字体
  • 高校体育场管理系统+ssm
  • Python学习从0到1 day27 第三阶段 Spark ② 数据计算Ⅰ
  • Python学习从0到1 day27 第三阶段 Spark ③ 数据计算 Ⅱ
  • 腾讯混元3D模型Hunyuan3D-1.0部署与推理优化指南
  • 基于 PyTorch 从零手搓一个GPT Transformer 对话大模型
  • IDEA构建JavaWeb项目,并通过Tomcat成功运行
  • Mac解决 zsh: command not found: ll
  • 库打包工具 rollup
  • unplugin-vue-components 库作用
  • LinkedList和单双链表。
  • AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
  • Spring boot 读模块项目升级为spring cloud 项目步骤以及问题
  • 时序数据库之influxdb和倒排索引以及LSM-TREE
  • 如何避免消息的重复消费问题?(消息消费时的幂等性)
  • 【Java SE】类与对象
  • 基于springboot的公益服务平台的设计与实现
  • Tomcat(6) 什么是Servlet容器?