当前位置：首页 > news >正文

olmOCR：使用VLM解析PDF

news 2025/9/6 10:20:19

在PDF解析中，目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline，或者直接通过VLM解析图像。

#一、 olmOCR是使用VLM进行的端到端的PDF文档解析
在这里插入图片描述

二、document-anchoring

与上述的不同在于，olmOCR使用了document-anchoring，文档锚定方法。针对PDF中的页码信息、图像信息等元数据和文字，使用pyPDF库进行解析。
在这里插入图片描述
通过在提示词里加入这些文字位置、图像位置、元数据等信息，VLM的幻觉大大减少。
加上位置信息，VLM应该能够定位到具体区域，然后专注于这部分的解析。
仅用页面图像进行提示容易出现未完成的句子，或者在图像数据模糊时产生不忠实的输出。

三、模型微调

数据集：构建了olmOCR-mix-0225数据集
训练：在Qwen2-VL-7B-Instruct上微调
评估：
1.与教师模型GPT-4o计算对齐得分，具体是文档相似性度量，该度量将文档拆分为单词，使用Hirschberg算法对这些单词进行对齐，并计算匹配的比例
2.人类评估：ELO分数
3.下游任务评估

项目：https://github.com/allenai/olmocr

http://www.lryc.cn/news/545709.html

相关文章：

数据结构（初阶）（七）----树和二叉树（堆，堆排序）

图像分类项目1：基于卷积神经网络的动物图像分类

Kali Linux 2024.4版本全局代理(wide Proxy)配置，适用于浏览器、命令行

[Windows] 批量为视频或者音频生成字幕 video subtitle master 1.5.2

不要升级，Flutter Debug 在 iOS 18.4 beta 无法运行，提示 mprotect failed: Permission denied

介绍 torch-mlir 从 pytorch 生态到 mlir 生态

InterHand26M（handposeX-json 格式）数据集-release ＞＞ DataBall

[Java基础] JVM常量池介绍（BeanUtils.copyProperties(source, target)中的属性值引用的是同一个对象吗）

`maturin`是什么：matu rus in python

spring boot整合flyway实现数据的动态维护

unity中使用spine详解

14. LangChain项目实战1——基于公司制度RAG回答机器人

利用STM32TIM自制延迟函数实验

创建一个MCP服务器，并在Cline中使用，增强自定义功能。

Android Activity栈关系解析

java使用word模板填充内容，再生成pdf

回归实战详细代码+解析：预测新冠感染人数

AI人工智能机器学习之聚类分析

（下：补充——五个模型的理论基础）深度学习——图像分类篇章

使用Python自动生成图文并茂的网页分析报告

uniapp-原生android插件开发摘要

GIT工具学习【1】：基本操作

《国密算法开发实战：从合规落地到性能优化》

【语法】C++中string类中的两个问题及解答

LeetCode-154. 寻找旋转排序数组中的最小值 II

2.数据结构：1.Tire 字符串统计

C语言复习4：有关数组的基础常见算法

Ubuntu从零创建Hadoop集群