当前位置：首页 > news >正文

【PDF提取内容】如何批量提取PDF里面的文字内容，把内容到处表格或者批量给PDF文件改名，基于C++的实现方案和步骤

news 2025/9/14 4:53:48

以下分别介绍基于 C++ 批量提取 PDF 里文字内容并导出到表格，以及批量给 PDF 文件改名的实现方案、步骤和应用场景。

批量提取 PDF 文字内容并导出到表格

应用场景

文档数据整理：在处理大量学术论文、报告等 PDF 文档时，需要提取其中的关键信息，如标题、作者、摘要等，并整理到表格中，方便后续的数据分析和比较。
信息归档：企业或机构可能有大量的合同、协议等 PDF 文档，需要将其中的重要条款、日期、金额等信息提取出来，存储到表格中进行统一管理和查询。

实现方案和步骤

1. 选择合适的库

Poppler：用于解析 PDF 文件并提取文字内容。Poppler 是一个开源的 PDF 渲染库，提供了 C++ 接口，可以方便地进行 PDF 文本提取。
LibXL：用于创建和操作 Excel 表格。它是一个跨平台的 C++ 库，支持创建、读取和修改 Excel 文件。

2. 安装依赖库

在 Linux 系统上，可以使用包管理器安装 Poppler 和 LibXL。例如，在 Ubuntu 上可以使用以下命令安装 Poppler：

bash

sudo apt-get install libpoppler-cpp-dev

对于 LibXL，需要从其官方网站下载库文件，并将其包含到项目中。

3. 编写代码

cpp

#include <iostream>
#include <fstream>
#include <vector>
#include <string>
#include <poppler/cpp/poppler-document.h>
#include <poppler/cpp/poppler-page.h>
#include "libxl.h"using namespace libxl;// 提取 PDF 文件中的文字内容
std::string extractTextFromPDF(const std::string& filePath) {poppler::document* doc = poppler::document::load_from_file(filePath);if (!doc || doc->is_locked()) {delete doc;return "";}std::string text;for (int i = 0; i < doc->pages(); ++i) {poppler::page* page = doc->create_page(i);if (page) {text += page->text().to_latin1();delete page;}}delete doc;return text;
}// 批量提取 PDF 文件内容并导出到 Excel 表格
void batchExtractPDFsToExcel(const std::vector<std::string>& pdfFiles, const std::string& outputFilePath) {Book* book = xlCreateBook();if (book) {Sheet* sheet = book->addSheet("PDF Text");if (sheet) {for (size_t i = 0; i < pdfFiles.size(); ++i) {std::string text = extractTextFromPDF(pdfFiles[i]);sheet->writeStr(i, 0, pdfFiles[i].c_str());sheet->writeStr(i, 1, text.c_str());}}book->save(outputFilePath.c_str());book->release();}
}int main() {std::vector<std::string> pdfFiles = {"file1.pdf","file2.pdf",// 添加更多 PDF 文件路径};std::string outputFilePath = "output.xlsx";batchExtractPDFsToExcel(pdfFiles, outputFilePath);return 0;
}

4. 编译和运行

使用以下命令编译代码：

bash

g++ -o extract_pdf extract_pdf.cpp -lpoppler-cpp -lxl

运行生成的可执行文件：

bash

./extract_pdf

批量给 PDF 文件改名

应用场景

文件整理：当从不同来源收集了大量 PDF 文件，文件名杂乱无章时，需要根据文件内容或特定规则对文件进行重命名，以便更好地管理和查找。
数据导入：在将 PDF 文件导入到某个系统或数据库时，要求文件名遵循一定的命名规范，此时需要对文件进行批量重命名。

实现方案和步骤

1. 选择合适的库

使用标准 C++ 库中的 <filesystem> （C++17 及以上）来处理文件和目录操作。

2. 编写代码

cpp

#include <iostream>
#include <filesystem>
#include <string>namespace fs = std::filesystem;// 批量给 PDF 文件改名
void batchRenamePDFs(const std::string& directoryPath) {int counter = 1;for (const auto& entry : fs::directory_iterator(directoryPath)) {if (entry.is_regular_file() && entry.path().extension() == ".pdf") {fs::path newPath = entry.path().parent_path() / (std::to_string(counter) + ".pdf");fs::rename(entry.path(), newPath);std::cout << "Renamed " << entry.path() << " to " << newPath << std::endl;++counter;}}
}int main() {std::string directoryPath = "./pdfs"; // 替换为实际的 PDF 文件目录batchRenamePDFs(directoryPath);return 0;
}

3. 编译和运行

使用以下命令编译代码：

bash

g++ -std=c++17 -o rename_pdf rename_pdf.cpp

运行生成的可执行文件：

bash

./rename_pdf

以上代码示例提供了基本的实现思路，你可以根据实际需求进行扩展和修改。

查看全文

http://www.lryc.cn/news/533978.html

智慧机房解决方案（文末联系，领取整套资料，可做论文）

【C编程问题集中营】使用数组指针时容易踩得坑

【Redis】Linux、Windows、Docker 环境下部署 Redis

反函数定义及其推导

2025.2.9机器学习笔记：PINN文献阅读

Oracle数据连接 Dblink

fetch请求总结,fastadmin中后台接口强制返回json数据

基于STM32的智能鱼缸水质净化系统设计

JAVA安全—FastJson反序列化利用链跟踪autoType绕过

格式化字符串漏洞（Format String Vulnerability）

C++--iomanip库

Redis 集群原理、主从复制和哨兵模式的详细讲解

基于Java的远程视频会议系统(源码+系统+论文)

springboot 事务管理

深度学习-神经机器翻译模型

.NET周刊【2月第1期 2025-02-02】

【合集】Java进阶——Java深入学习的笔记汇总 amp；再论面向对象、数据结构和算法、JVM底层、多线程

GPU、CUDA 和 cuDNN 学习研究【笔记】

【5】阿里面试题整理

计算机毕业设计hadoop+spark+hive物流预测系统物流大数据分析平台物流信息爬虫物流大数据机器学习深度学习

Wpf美化按钮，输入框，下拉框，dataGrid

搜索插入位置：二分查找的巧妙应用

Cocos2d-x 游戏开发-打包apk被默认自带了很多不必要的权限导致apk被报毒，如何在Cocos 2d-x中强制去掉不必要的权限-优雅草卓伊凡

自动化xpath定位元素（附几款浏览器xpath插件）

Kotlin 使用 Chrome 无头浏览器

Arbess基础教程-创建流水线

批量提取 PDF 文字内容并导出到表格

应用场景

实现方案和步骤

1. 选择合适的库

2. 安装依赖库

3. 编写代码

4. 编译和运行

批量给 PDF 文件改名

应用场景

实现方案和步骤

1. 选择合适的库

2. 编写代码

3. 编译和运行

相关文章：