当前位置: 首页 > news >正文

羲和数据集收集器1.3

为了实现所要求的功能,我们需要进一步完善代码,使其能够处理多种格式的输入文件,并生成符合要求的 JSON 格式的输出文件。具体来说,我们完善了以下内容:

增强 extract_qa_pairs_from_content 函数:使其能够识别和处理不同格式的 QA 对。
确保输出文件的格式正确:每个 QA 对占一行,且格式为 JSON。
以下是完善后的代码:

import os
import json
import fitz  # PyMuPDF
import docx
import re
import tkinter as tk
from tkinter import filedialog, messagebox, simpledialog
import logging# 设置日志记录
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')def clean_text(text):""" 清理文本,去除多余的空白字符和标点符号,替换影响数据集的特殊字符 """text = re.sub(r'\s+', ' ', text)  # 合并多个空白字符text = re.sub(r'[^\w\s]', '', text)  # 去除标点符号text = re.sub(r'"', "'", text)  # 替换双引号text = re.sub(r'\\', '/', text)  # 替换反斜杠return text.strip()def extract_qa_pairs_from_txt(file_path):with open(file_path, 'r', encoding='utf-8') as f:content = f.read()content = clean_text(content)qa_pairs = extract_qa_pairs_from_content(content)return qa_pairsdef extract_qa_pairs_from_docx(file_path):doc = docx.Document(file_path)content = []for para in doc.paragraphs:content.append(para.text)for table in doc.tables:for row in table.rows:for cell in row.cells:content.append(cell.text)for rel in doc.part.rels.values():if "textBox" in rel.target_ref:text_box = rel.target_partfor element in text_box.element.body:if element.tag.endswith('p'):content.append(element.text)content = '\n'.join(content)content = clean_text(content)qa_pairs = extract_qa_pairs_from_content(content)return qa_pairsdef
http://www.lryc.cn/news/482824.html

相关文章:

  • UE--IOS打包失败 AutomationTool exiting with ExitCode=9 (9)
  • 第8章利用CSS制作导航菜单
  • UNIX网络编程-TCP套接字编程
  • 美团代付微信小程序 read.php 任意文件读取漏洞复现
  • centos7 node升级到node18
  • 使用Matlab建立随机森林
  • 【江苏-无锡】《无锡市市级政务信息化建设及运行维护项目支出预算标准(试行)》 -省市费用标准解读系列10
  • 2024-11-12 问AI: [AI面试题] 您将如何设计一个人工智能系统来预测电信公司的客户流失?
  • 【数字静态时序分析】复杂时钟树的时序约束SDC写法
  • springboot苍穹外卖实战:五、公共字段自动填充(aop切面实现)+新增菜品功能+oss
  • Go 语言中,golang结合 PostgreSQL 、MySQL驱动 开启数据库事务
  • Git核心概念
  • 网络安全技术在能源领域的应用
  • 这些场景不适合用Selenium自动化!看看你踩过哪些坑?
  • PHP反序列化靶场(php-SER-libs-main 第一部分)
  • 基于大数据爬虫+Python+SpringBoot+Hive的网络电视剧收视率分析与可视化平台系统(源码+论文+PPT+部署文档教程等)
  • DHCP与FTP
  • 云渲染与云电脑,应用场景与技术特点全对比
  • RockPI 4A单板Linux 4.4内核下的RK3399 GPIO功能解析
  • 【Vue】Vue3.0(二十三)Vue3.0中$attrs 的概念和使用场景
  • RHEL/CENTOS 7 ORACLE 19C-RAC安装(纯命令版)
  • CCSK:面试云计算岗的高频问题
  • C++ String(1)
  • ts 中 ReturnType 作用
  • Hadoop + Hive + Apache Ranger 源码编译记录
  • Java从入门到精通笔记篇(十二)
  • 入侵排查之Linux
  • 从0开始学习Linux——文件管理
  • 全面介绍软件安全测试分类,安全测试方法、安全防护技术、安全测试流程
  • Leidenアルゴリズムの詳細解説:Pythonによるネットワーク分割の実装