当前位置: 首页 > news >正文

基于paddleocr的版面分析

前处理

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction

(1)几何矫正

给定一张存在几何和光照畸变的文档图像,我们首先用一个包含六个卷积模块的特征提取器对其进行特征提取,并降低特征图分辨率至输入图像的1/8尺度,以保证网络的推理效率。然后,我们将提取的特征图展平后,输入至Transformer编码器,解码器,以及我们设计的可学习的上采样模块,得到坐标位移矩阵。最后,我们用对坐标位移矩阵对输入的图像进行几何矫正(即基于双线性插值的在输入图像上按坐标进行像素重采样)。

(2)光照恢复

给定一张几何矫正输出的高分辨率图像,我们首先将其切分成相互之间有1/8重叠的图像块。然后,我们将每一个图像块输入至卷积特征提取器,Transformer编码器,解码器,以及卷积输出头,从而输出光照恢复的图像块。最后,我们将每一个恢复的图像块进行空间上的拼接,完成文档图像的光照恢复。

1、版面分析

使用轻量模型PP-PicoDet检测模型实现版面各种类别的检测。

数据集:

英文:publaynet数据集的训练集合中包含35万张图像,验证集合中包含1.1万张图像。总共包含5个类别。

中文:CDLA据集的训练集合中包含5000张图像,验证集合中包含1000张图像

2、文本分析

文本检测:改进了基于分割的DBNet (Differentiable Binarization)

数据集:ICDAR 2015 数据集包含1000张训练图像和500张测试图像。

文本识别:SVTR_LCNet(将基于Transformer的SVTR网络和轻量级CNN网络PP-LCNet 融合的一种轻量级文本识别网络)

数据集:

 

 3、表格

1. 文字检测模型:用于检测表格里的文本

2. 文字识别模型:用于对检测到的文本进行识别

3. SLANet模型用于预测表格结构的HTML信息和表格单元格坐标

数据集:

PubTabNet数据集的训练集合中包含50万张图像,验证集合中包含0.9万张图像

好未来表格识别竞赛数据集的训练集合中包含1.6万张图像。验证集未给出可训练的标注。

参考来源: GitHub - PaddlePaddle/PaddleOCRhttps://github.com/PaddlePaddle/PaddleOCR

http://www.lryc.cn/news/145049.html

相关文章:

  • 网工内推 | IT网工,华为、华三认证优先,15k*13薪
  • leetcode 739. 每日温度
  • 【活体检测模型】活体检测思路推演
  • 【微服务部署】03-健康检查
  • SQL注入之报错注入
  • 基于大数据+django+mysql的银行信用卡用户的数仓系统
  • 【网络】多路转接——五种IO模型 | select
  • sql顺序倒序查询
  • java和sql生成时间维度数据
  • HUT23级训练赛
  • sm4 加解密算法工具类( Java 版 )
  • Redis项目实战——商户查询缓存
  • 重磅OpenAI发布ChatGPT企业版本
  • # Go学习-Day7
  • uniapp-form表单
  • 漏洞挖掘-利用
  • React钩子函数之useDeferredValue的基本使用
  • lodash常用方法
  • QByteArray与结构体之间相互转换
  • npm如何安装淘宝镜像
  • 从项目中突显技能:在面试中讲述你的编程故事
  • python的观察者模式案例
  • C语言——类型转换
  • jmeter性能测试入门完整版
  • 报错sql_mode=only_full_group_by
  • 伪造 IP 地址的原理和防范措施
  • Linux通过libudev获取挂载路径、监控U盘热拔插事件、U盘文件系统类型
  • 【会议征稿】2023智能通信与网络国际学术会议(ICN 2023)
  • Android投屏总结
  • vue2 组件组成部分,组件通信,进阶语法