当前位置: 首页 > news >正文

python抽取pdf中的参考文献

想将一份 pdf 论文中的所有参考文献都提取出来,去掉不必要的换行,放入一个 text 文件,方便复制。其引用是 ieee 格式的,形如:
ieee-ref
想要只在引用序号(如 [3])前换行,其它换行都去掉,即一行一条参考文献。

可用 pypdf[1],其主页有示例,加上 re 去除非序号前的换行(检测 [)。

Code

from pypdf import PdfReader
import re# 检测非 `[` 前的换行
pattern = r'\n(?!\[)'reader = PdfReader("paper.pdf")
n_pages = len(reader.pages)
print(n_pages)with open("ref.txt", "w", encoding="utf-8") as f:for i in range(23, 29): # 自己确定 reference 页码范围page = reader.pages[i]text = page.extract_text()text = re.sub(r'-\n', '', text) # hyphen 后换行:连 hyphen 一齐删text = re.sub(pattern, ' ', text) # 多余换行换成空格f.write(text)# + '\n')

References

  1. py-pdf/pypdf
http://www.lryc.cn/news/353523.html

相关文章:

  • Java进阶学习笔记21——泛型概念、泛型类、泛型接口
  • 深入理解计算机系统 家庭作业4.55
  • 第二天-⑦前后端需要注意的事项
  • Socket 函数详细讲解(Socket编程步骤、socket函数、TCP和UDP的区别)
  • 【限免】杂波环境下线性调频脉冲、巴克码、频率步进脉冲雷达MTI、脉冲压缩【附MATLAB代码】
  • 前端最新面试题(Javascript模块篇)
  • Android11热点启动和关闭
  • DI-engine强化学习入门(三)DI-ZOO强化学习环境搭建与示例运行——Atari
  • 【一站式学会Kotlin】第十节:kotlin 语言的可控性特点和安全调用操作符
  • PaddleClas 指定gpu
  • langchain进阶一:特殊的chain,轻松实现对话,与数据库操作,抽取数据,以及基于本地知识库的问答
  • 【Spring Boot】响应式编程
  • 【C++练级之路】【Lv.21】C++11——列表初始化和声明
  • 输入一串字符串,前中后都有*号,去掉字符串中间和后面的*号,保留前面的*号和字母
  • 【机器学习与大模型】驱动下的应用图像识别与处理
  • 24李林跌落神坛,880还刷吗?还是换1000、900、660?
  • 数据库漫谈-sybase
  • Springboot开发 -- Postman 调试类型详解
  • Windows 后台启动jar并且输出日志到特定日志
  • 垃圾回收机制及算法
  • 蓝桥杯-暴力搜索BFS+DFS
  • 巧用count与count()
  • MongoDB 覆盖索引查询:提升性能的完整指南
  • ECMAScript详解
  • 如何在Windows 10上对硬盘进行碎片整理?这里提供步骤
  • 科学高效备考AMC8和AMC10竞赛,吃透2000-2024年1850道真题和解析
  • SQL——SELECT相关的题目
  • etcd集群部署
  • VBA_MF系列技术资料1-615
  • 常用激活函数学习