当前位置: 首页 > news >正文

羲和数据集收集器0.9

为了进一步完善代码,增强其文字抓取能力和文件读取能力,我们做以下改进:

增强 DOCX 文档的文本提取:不仅提取段落和文本框内容,还提取表格中的文本。
增强 PDF 文档的文本提取:不仅提取页面文本和注释,还提取表格中的文本。
优化文本清理:确保文本清理更加彻底,避免不必要的空白和标点符号。
增加日志记录:记录更多的处理细节,便于调试和问题排查。
以下是改进后的代码:

python

import os
import json
import fitz  # PyMuPDF
import docx
import re
import tkinter as tk
from tkinter import filedialog, messagebox, simpledialog
import logging# 设置日志记录
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')def clean_text(text):""" 清理文本,去除多余的空白字符和标点符号 """text = re.sub(r'\s+', ' ', text)  # 合并多个空白字符text = re.sub(r'[^\w\s]', '', text)  # 去除标点符号return text.strip()def extract_qa_pairs_from_txt(file_path):with open(file_path, 'r', encoding='utf-8') as f:content = f.read()content = clean_text(content)qa_pairs = extract_qa_pairs_from_content(content)return qa_pairsdef extract_qa_pairs_from_docx(file_path):doc = docx.Document(file_path)content = []for para in doc.paragraphs:content.append(para.text)for table in doc.tables:for row in table.rows:for cell in row.cells:content.append(cell.text)for rel in doc.part.rels.values():if "textBox" in rel.target_ref:text_box = rel.target_partfor element in text_box.element.body:if element.tag.endswith('p')
http://www.lryc.cn/news/480460.html

相关文章:

  • 哈尔滨等保测评常见误区破解:避免陷入安全盲区
  • Python学习------第四天
  • 【Django】配置文件 settings.py
  • 量化交易系统开发-实时行情自动化交易-Okex K线数据
  • 【基于轻量型架构的WEB开发】课程 12.5 数据回写 Java EE企业级应用开发教程 Spring+SpringMVC+MyBatis
  • apache-seata-2.1.0 AT模式使用篇(配置简单)
  • (金蝶云星空)客户端追踪SQL
  • OAK相机:纯视觉SLAM在夜晚的应用
  • 发送方确认
  • 如何使用HighBuilder前端开发神器
  • 发现了NitroShare的一个bug
  • 如何关闭 Ubuntu22.04 LTS 的更新提醒
  • 美术资源规范
  • UE5.4 PCG 获取地形Layer
  • 用 cURL 控制 OpenSIPS3.4
  • 【LuatOS】基于WebSocket的同步请求框架
  • 架构师考试系列(8)论文专题:信息系统安全设计
  • 浙大一附院就医:分享给大家工作久了关节疼的就医经验,腱鞘炎
  • 如何降低 PCIe RTT?
  • 数据结构之二叉树--前序,中序,后序详解(含源码)
  • 红黑树及MySQL 基础架构
  • 大数据-212 数据挖掘 机器学习理论 - 无监督学习算法 KMeans 基本原理 簇内误差平方和
  • QJson-趟过的各种坑(先坑后用法)
  • 基于STM32的hx711称重模块使用
  • Nginx独立项目相关配置说明
  • Nuxt3之使用lighthouse性能测试及性能优化实操
  • ‌webdriver.Chrome()参数简介
  • Ubuntu如何更换环境中的Python版本
  • python-字符串中大写字母转小写,小写字母转大写
  • 前端学习之ES6+