当前位置: 首页 > news >正文

当文档包含图文混排表格时,如何结合大模型(如DeepSeek-VL)和OCR提取数据

从金融研报、市场分析材料到学术论文,柱状图、折线图、散点图等图表经常被运用于记录和直观表现数据。有时候我们需要将表格中的部分数据提取出来,进行专门的分析和使用。

但是,当我们试图从图文混排表格中逆向拆解PDF或JPG、PNG格式的图表,将其重新转化为Excel等可编辑数据形式,就会遇到难点。要么速度慢,需要人工操作一个一个数据的提取,要么利用ocr工具,但没有接入AI能力的OCR工具只能提取文本信息,难以理解用户真正所需的数据。

以金融行业为例,机构常需解析上市公司的年报、各类研报中的数据,其中包括大量图表数据。这些文件以PDF和图片格式为主体,也不乏批量处理更困难的加密PDF。相比纯文本,表格、图表中包含了更多重要数据,如何准确地提取这些数据对进一步的研究分析工作至关重要。

针对这一问题,【TextIn】文档解析工具作为大模型加速器,为解决这一难点量身定制。TextIn文档解析上架新功能——图表解析,通过线上参数配置即可调用,完成全文解析,无需对样本进行预先分割或其他预处理。让我们来看几个例子。

图1

图2

对于有数值标注的图表,TextIn文档解析可以直接输出准确表格,将其转化为结构化数据,方便后续的数据入库、分析或输入大模型进行处理。

图3

图4

对于没有明确数值的复杂图表,TextIn也会通过精确测量给出预估数值,在仅有扫描件、图片文件的情况下,帮助挖掘更多有效数据信息,完成分析及预测工作。

以图2中的图表为例。图表展示了全球工业机器人销售额,我们向大模型上传文件,并提出问题。下方图5为直接上传PDF的回答,图6为上传TextIn解析后的Markdown文件获得的答复。

图5

图6

可以看到,未经过解析的柱状图对大模型的理解造成了干扰,经过图表转化后,模型给出了准确、优质的答案。

因此,接入AI能力的文档解析工具已不仅仅是一款OCR工具,反而可以成为提炼文本内容并将文档中非结构化数据转换成结构化数据的利器,方便用户的同时,也能赋能计算机读取理解文档信息。

http://www.lryc.cn/news/606082.html

相关文章:

  • 一次 web 请求响应中,通常那个部分最耗时?
  • Flutter module 是如何被原生 Android 项目通过 Gradle 引入的
  • Flutter Chen Generator - yaml配置使用
  • 原生安卓与flutter混编的实现
  • 是否需要买一个fpga开发板?
  • 嵌入式硬件学习(十)—— LED驱动+杂项设备驱动
  • 【Unity】实现小地图
  • TDengine 中 TDgp 中添加算法模型(异常检测)
  • 【大模型理论篇】跨语言AdaCOT
  • Flutter 页面跳转及传参总结
  • 8.2-使用字符串存储 UTF-8 编码文本
  • RAG:让AI更聪明的“外接大脑“ | AI小知识
  • ECMAScript2023(ES14)新特性
  • C# 基于halcon的视觉工作流-章27-带色中线
  • HTM 5 的离线储存的使用和原理
  • JavaEE初阶1.0
  • 认知绞肉机:个体实践视域下认知暴力与元认知升维的活体实验研究
  • 今日做题练习
  • 记录自己使用gitee和jenkins
  • PHP 核心特性全解析:从实战技巧到高级应用(2)
  • 按键精灵iOS工具元素命令SetText:自动化输入的终极解决方案
  • .NET Core部署服务器
  • Linux网络-------3.应⽤层协议HTTP
  • Java 大视界 -- Java 大数据在智能交通公交客流预测与线路优化中的深度实践(15 城验证,年省 2.1 亿)(373)
  • 快速搭建Node.js服务指南
  • 前端核心技术Node.js(四)——express框架
  • 8,FreeRTOS时间片调度
  • RPA-重塑企业自动化流程的智能引擎
  • 《能碳宝》AI辅助开发系统方案
  • 免费语音识别(ASR)服务深度指南​