当前位置: 首页 > news >正文

Meta AI的Nougat能够将数学表达式从PDF文件转换为机器可读文本

大多数科学知识通常以可移植文档格式(PDF)的形式存储,这也是互联网上第二突出的数据格式。然而,从这种格式中提取信息或将其转换为机器可读的文本具有挑战性,尤其是在涉及数学表达式时。

为了解决这个问题,以前的研究提出了光学字符识别(OCR),这是一种检测和分类图像中单个字符和单词的有效技术,通过将科学文献视为图像来处理科学文献,但它们无法捕捉句子之间的关系逐行处理句子。

在一篇新论文《Nougat:学术文献的神经光学理解》中,Meta AI研究团队提出了学术文献的神经光学理解(Nougat),这是一种视觉转换器模型,可以有效地将PDF格式存储的科学文献转换为轻量级标记语言,甚至涉及密集的数学方程式。

2023-09-02T03:24:28.png

该团队将他们的主要贡献总结如下:

1、发布能够将PDF转换为轻量级标记语言的预训练模型。我们在 GitHub 上发布代码和模型。

2、我们引入了一个管道来创建数据集,用于将 PDF 与源代码配对。

3、我们的方法仅依赖于页面的图像,允许访问扫描的纸张和书籍。

2023-09-02T03:25:03.png

拟建的Nougat以Donut建筑为基础。Swin-Transformer编码器将文档图像作为输入,并输出一系列潜在嵌入。接下来,通过具有自回归方式的交叉关注的变换器解码器架构,将编码图像解码为令牌序列。最后,输出被投影到词汇表的大小。

值得注意的是,研究人员利用视觉文档理解的最新进展来完成新的OCR任务,但与以前的方法相反,Nougat不需要依赖OCR或嵌入式文本表示,只需要光栅化的文档页面。

2023-09-02T03:25:20.png

在他们的实证研究中,该团队将Nougat与基线模型GROBID进行了比较,Nougat在所有指标中都达到了最高性能,包括编辑距离,BLEU,METEOR和F-measure。

总体而言,这项工作表明,Nougat不仅具有从数字出生的PDF中提取文本的巨大潜力,而且可以处理扫描的纸张和教科书。该团队希望他们的工作可以作为未来相关领域更多研究的起点。

该代码可在项目的GitHub上找到。

论文Nougat:arXiv学术文献的神经光学理解。

http://www.lryc.cn/news/156433.html

相关文章:

  • 【Python爬虫笔记】爬虫代理IP与访问控制
  • 50、Spring WebFlux 的 自动配置 的一些介绍,与 Spring MVC 的一些对比
  • 【算法专题突破】双指针 - 和为s的两个数字(6)
  • Redis7入门概述
  • SQL sever命名规范
  • BCSP-玄子Share-Java框基础_工厂模式/代理模式
  • 【数据结构】2015统考真题 6
  • HTML <track> 标签
  • php中识别url被篡改并阻止访问的实现方式是什么
  • c++ 学习 之 const,constexpr,volatile
  • 【Flink】关于jvm元空间溢出,mysql binlog冲突的问题解决
  • C#常用多线程(线程同步,事件触发,信号量,互斥锁,共享内存,消息队列)
  • OpenWrt系统开发笔记
  • 实战 - Restful APi 格式规范
  • 《Linux从练气到飞升》No.21 Linux简单实现一个shell
  • 【iVX】iVX的低代码未来发展趋势:加速应用开发的创新之路
  • zookee 安装
  • OpenWrt编译自己的应用程序
  • MySQL 50 题。
  • 强化学习算法总结 (1)
  • Qt应用开发(基础篇)——向导对话框 QWizard
  • Python类的方法
  • 变电站自动化监控系统
  • MySql学习笔记11——DBA命令介绍
  • Webpack 复习小结
  • Laravel chunk和chunkById的坑
  • 从零开始学习 Java:简单易懂的入门指南之泛型及set集合(二十二)
  • JVM----GC(垃圾回收)详解
  • 数据库的三个范式
  • 谷歌浏览器打开白屏 后台还有还有很多google chrome进程在运行