当前位置: 首页 > news >正文

文档矫正算法:DocTr++

文档弯曲矫正(Document Image Rectification)的主要作用是在图像处理领域中,对由于拍摄、扫描或打印过程中产生的弯曲、扭曲文档进行校正,使其恢复为平整、易读的形态。

一. 论文和代码

论文地址:https://arxiv.org/abs/2304.08796
代码地址:https://github.com/fh2019ustc/DocTr-Plus

二. 原理简介

论文提出了一种新的数据处理方式,解决了以前文档矫正只能处理带有边界信息的完整文档,文章通过数据处理定义了三种类型的训练数据。(a)包含完整文档边界,(b)包含部分文档边界,(c)不包含文档边界。
在这里插入图片描述
算法框架如下:对于任意弯曲的文档,作者首先通过CNN抽取特征,然后通过transformer结构进行编码和解码,最后用Flow Head预测偏移场,用偏移场矫正弯曲图片。
在这里插入图片描述
网络架构如下图所示:
在这里插入图片描述
首先, 在畸变特征编码器中,DocTr++采用自注意力机制捕获形变文档的结构特征,并构建多尺度编码器,进行特征提取和融合。其中,编码器由三个子模块组成,每个子模块包含两个标准的 Transformer 编码层。这使得本方法既能编码具有高分辨率纹理细节的特征,又能获得低分辨率具有高层语义信息的特征。
接下来,矫正解码器接收编码器输出的多尺度特征以及可学习的矫正提示向量序列(Learnable Queries),输出解码后的表征用于后续坐标映射矩阵的预测。其中,可学习的矫正提示向量序列零初始化,并加上固定的位置编码。

三. 实验细节

input:288x288
output:288x288
learning rate:1e-4
实验结果如下:
在这里插入图片描述

四. 总结

DocTr++突破了现有多数矫正方法的场景局限性,能够恢复日常生活中常见的各种形变文档图像。为了实现优秀的矫正效果,DocTr++采用了一种多尺度编解码器结构,构建各类形变文档图像与无形变文档图像之间的逐像素映射关系。

五. 博主点评

  1. 优点:该论文是2023年的IEEE,在当时的指标上达到了SOTA;
  2. 缺点:后处理过于简单,对于无边界的文档,处理后mask以外的区域没有填补,跟商用矫正算法还存在较大差距。

欢迎技术交流:
在这里插入图片描述

http://www.lryc.cn/news/448373.html

相关文章:

  • Vxe UI vue vxe-table vxe-grid 单元格与表尾单元格如何格式化数据
  • 【百日算法计划】:每日一题,见证成长(021)
  • 数据恢复篇:如何恢复几年前删除的照片
  • 前端注释规范
  • uniapp踩坑 tabbar页面数据刷新了但视图没有更新
  • WebAssembly与WebGPU:游戏开发的新时代
  • SAP B1 认证考试习题 - 解析版(二)
  • 《Ubuntu20.04环境下的ROS进阶学习7》
  • 免费视频无损压缩工具+预览视频生成工具
  • OIDC9-OIDC集成登录功能(SpringBoot3.0)
  • 使用Vue.extend( ) 模仿 elementui 创建一个类似 message 消息提示框
  • ansible部署二进制mysql 8
  • 【2023工业3D异常检测文献】基于混合融合的多模态工业异常检测方法Multi-3D-Memory (M3DM)
  • 基于微信小程序的宿舍报修系统的设计与实现(lw+演示+源码+运行)
  • 前端练习总结(1)
  • 计算机网络自顶向下(1)---网络基础
  • Pandas -----------------------基础知识(五)
  • RabbitMQ 高级特性——重试机制
  • 每天一道面试题(20):锁的发生原因和避免措施
  • 2024淘宝双11活动,收下这份必买好物推荐清单
  • vue-cli,element-plus,axios,proxy
  • 《Zeotero的学习》
  • 大数据复习知识点1
  • 9.26 Buu俩题解
  • Mitsuba 渲染基础
  • 深入理解 WebSocket:实时通信的利器
  • OpenEuler配置本地yum源
  • 论文不同写作风格下的ChatGPT提示词分享
  • 单点登录(SSO)基础
  • 设置VsCode搜索时排除文件,文件列表中隐藏文件