当前位置: 首页 > news >正文

KPN对任意形状文本检测

文章目录

  • 一、研究背景
  • 二、方法流程
    • 1. 特征提取
    • 2. 核建议
    • 3. 实例无关特征图
    • 4. 轮廓生成
    • 5. 其余部分内容
  • 三、不足

一、研究背景

相比起基于 FCN 网络的文本边缘检测网络,KPN网络可以更好地处理文本之间的间隔。

二、方法流程

1. 特征提取

FCN 和 FPN

FCN(全卷积神经网络) 介绍

FPN(特征金字塔神经网络) 介绍

特征提取网络有两个输入:图片和位置信息

位置信息怎么来的?

对图片中每一个像素点进行处理,从而生成两个通道的特征图。

每个像素点具有关于 x 轴和 y 轴的位置信息,每个像素点的 x 轴生成一个通道,y轴生成一个通道。位置大小范围转换为 [−1,1][-1,1][1,1], 即在坐标原点处的像素点关于 x 轴的值为 -1。

具体计算方法如下图所示。

其中 w,hw, hw,h 表示输出特征图的宽度和高度,iii 表示第 iii 个像素点。

2. 核建议

预测中心图获取文本的连通分量, 获取连通分量是因为对于一个文本实例存在冗余点

分量得分点最高的像素作为关键点???

关键点对应位置的特征图为预测核

3. 实例无关特征图

嵌入特征图与预测核进行卷积得到实例无关特征图

其中 OOO 表示输出的实例无关特征图,每个通道对应一个文本的预测(pip_ipi)

KKK 表示得到的卷积核

EEE 表示预测中心图(FsF_sFs) 和 嵌入特征图(FpF_pFp) 的卷积结果

4. 轮廓生成

通过预先设定的阈值对预测出的实例无关特征图进行二值化处理,得到待检测文本的轮廓

5. 其余部分内容

对于在找到的每一个预测中心图中找到的点,实际上对应的是一个文本实例。所以由此得到的核建议之间应该尽量保持正交关系,这样就可以在一定程度上避免不同文本实例之间的干扰。

由此可以得到一个函数

KKK 表示得到的卷积核,kik_iki 表示由预测中心图中的一个点得到的核建议。

对此提出了一个损失函数 LOLLL_{OLL}LOLL

其中 III 表示单位矩阵

LdiceL_{dice}Ldice表示骰子损失

LBCEL_{BCE}LBCE表示二进制交叉熵损失。

三、不足

对场景文本复杂和小文本的环境下存在漏检的情况.

红色表示实际情况,绿色表示 KPN 检测结果

http://www.lryc.cn/news/33199.html

相关文章:

  • 同城外卖跑腿系统源码分析
  • SCL_PFENET跑通填坑
  • Redis 做延迟消息队列
  • 刚果金FERI证书模板
  • 什么是蜕变测试?
  • 74. ‘pip‘不是内部或外部命令,也不是可运行的程序-解决办法
  • MIL图像处理那些事:应用程序模块(Mapp)- 初始化和控制MIL应用程序的执行环境
  • Pytorch基础语法学习2——argparse模块
  • CHAPTER 2 目录及文件
  • 2021牛客OI赛前集训营-提高组(第四场) T1最终测试
  • 【华为OD机试2023】租车骑绿岛 C++ Java Python
  • 05-路由中的Hook
  • Ubuntu20.04 源码编译安装SRS-6流媒体服务器,开启GB28181支持
  • Web前端学习:六 -- 练习小总结
  • 微服务之 CAP原则
  • 乐鑫特权隔离机制 #4 | 用户应用程序的安全启动
  • 剑指 Offer 46. 把数字翻译成字符串
  • tar命令——归档/压缩和解压缩文件
  • Softing smartLink网关——推进过程工业数字化转型
  • Spark的常用算子
  • Unity Avatar Cover System - 如何实现一个Avatar角色的智能掩体系统
  • steam/csgo搬砖项目到底真的假的?
  • 【Python笔记20230307】
  • SBOM应该是软件供应链中的安全主食
  • [计算机组成原理(唐朔飞 第2版)]第一章 计算机系统概论 第二章 计算机的发展及应用(学习复习笔记)
  • Python的数据分析相关的框架
  • 为什么会出现植物神经紊乱 总是检查不出来该怎么办
  • 宏任务和微任务
  • 使用WebSocket、SockJS、STOMP实现消息实时通讯功能
  • C++回顾(十一)—— 动态类型识别和抽象类