当前位置: 首页 > news >正文

【机器学习案例3】从科学论文图片中提取标题、作者和摘要【含源码】

在这个项目中,我的目标是从科学论文图片中提取某些部分(标题、作者和摘要)。预期提取部分是科学论文中常见的部分,例如标题、摘要和作者。输入与最终结果。我的输入是将第一页纸转换成图像。最终结果是一个 txt 文件,其中包含标题、作者和摘要部分,如下图1和图2所示。我将使用 UNet 来了解在哪里可以找到这些部分,然后将训练学到的信息传递到 OCR 中。完整的项目可以在这里找到。

图1 要提取的论文首页(图片格式) 

图2  提取得到的论文标题、作者和摘要

步骤说明

我从数据收集和科学论文开始。由于我只对标题、摘要和作者这三个部分感兴趣,所以我选择了多篇论文中的第一页。然后我将其转换pdf为图像,因为我的 UNet 模型只接受图像。我已将数据集分别按 80/20 分为训练集和测试集。接下来,我编写了一个 python 脚本mask.py来屏蔽图像。参见下图。 

图3:右侧是科学论文的原始首页,左侧是相应论文的mask.py结果。 

蒙版图像是一维图像,其中每个像素的值为 0(黑色)和 1(白色)。 0表示该像素不重要,1表示该像素重要。左侧图像的白色区域掩盖了重要的标题、摘要和作者部分。

我们将此掩模和原始图像传递给我们的 UNet 模型进行训练。 UNet 是一种流行的架构。您可以找到该架构的许多实现。我推荐Milesial的架构。如果您已经克隆了dagshub存储库,则无需克隆此存储库。您可以通过将工作目录更改为Unet-OCR/Pytorch-UNet然后运行来构建模型,train.py如下所示:

python train.py --epoch 6 --batch-size 1 --learning-rate 0.000001

显然您可以设置自己的参数。当然您也可以使用预训练模型MODEL.pth,您将在运行时获得:

dvc pull -r origin

确保按照下面的安装说明将 DVC 源设置为我的

http://www.lryc.cn/news/299697.html

相关文章:

  • 【开源】JAVA+Vue.js实现天然气工程运维系统
  • 什么是智慧隧道,如何建设智慧隧道
  • jupyter notebook
  • MongoDB聚合:$listSearchIndexes
  • Excel练习:日历
  • 【C语言】指针练习篇(上),深入理解指针---指针和数组练习题和sizeof,strlen的对比【图文讲解,详细解答】
  • 2048游戏C++板来啦!
  • 2000-2021年县域指标统计数据库
  • Hive on Spark配置
  • 计算机网络——11EMail
  • 第13讲创建图文投票
  • Vulnhub靶机:DC3
  • 代码随想录算法训练营第三十一天|● 理论基础 ● 455.分发饼干 ● 376. 摆动序列 ● 53. 最大子序和
  • 【光学】学习记录1-几何光学的近轴理论
  • 【51单片机】AT24C02(江科大、爱上半导体)
  • nohup基本使用
  • postgresql 手动清理wal日志的101个坑
  • 【开源训练数据集3】Top3人脸数据集及其使用方法-计算机视觉应用
  • 精灵图,字体图标,CSS3三角
  • .NET Core性能优化技巧
  • 人类智能远远超越了物理与数理范畴
  • 数据库管理-第149期 Oracle Vector DB AI-01(20240210)
  • FlinkSql通用调优策略
  • Linux在云计算领域的重要作用
  • sqlserver2012 解决日志大的问题 bat脚本
  • SpringCloud之Eureka注册中心和负载均衡
  • Python 数据可视化之山脊线图 Ridgeline Plots
  • VTK 三维场景的基本要素(相机) vtkCamera 相机的运动
  • C++ //练习 6.53 说明下列每组声明中的第二条语句会产生什么影响,并指出哪些不合法(如果有的话)。
  • 缓慢变化维 常用的处理方法