当前位置：首页 > news >正文

羲和数据集收集器1.0

news 2025/8/29 8:19:41

为了提升问答对的提取能力并完善GUI，我们从以下几个方面进行改进：

增强文本清理和解析能力：确保能够更准确地识别问答对。
支持更多文件格式：除了现有的 .txt, .docx, 和 .pdf，可以考虑支持其他常见格式如 .xlsx 等。
优化GUI设计：提供更友好的用户界面，包括进度条、日志显示等。
错误处理和日志记录：增强错误处理机制，提供详细的日志记录。
以下是改进后的代码：

import os
import json
import fitz  # PyMuPDF
import docx
import re
import tkinter as tk
from tkinter import filedialog, messagebox, simpledialog
import logging
from threading import Thread# 设置日志记录
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')def clean_text(text):""" 清理文本，去除多余的空白字符和标点符号 """text = re.sub(r'\s+', ' ', text)  # 合并多个空白字符text = re.sub(r'[^\w\s]', '', text)  # 去除标点符号return text.strip()def extract_qa_pairs_from_txt(file_path):with open(file_path, 'r', encoding='utf-8') as f:content = f.read()content = clean_text(content)qa_pairs = extract_qa_pairs_from_content(content)return qa_pairsdef extract_qa_pairs_from_docx(file_path):doc = docx.Document(file_path)content = []for para in doc.paragraphs:content.append(para.text)for table in doc.tables:for row in table.rows:for cell in row.cells:content.append(cell.text)for rel in doc.part.rels.values():if "textBox" in rel.target_ref:text_box = rel.target_partfor element in text_box.element.body:if element.tag.endswith('p'):content.append(element.text)content = '\n'.join(content)conte