当前位置: 首页 > news >正文

[目标检测] OCR: 文字检测、文字识别、text spotter

概述

OCR技术存在两个步骤:文字检测和文字识别,而end-to-end完成这两个步骤的方法就是text spotter。

文字检测数据集摘要

daaset语言体量特色
MTWI中英文20k源于网络图像,主要由合成图像,产品描述,网络广告(淘宝)
MSRA-TD500中英文
SynthText800k img + 8000k text合成数据
CTW1500中文32k野外场景
ICDAR 2015
ICDAR 2019-ReCTS中文标识牌上的文字(店铺名等)
ICDAR2019-ArT中英文组合Total-Text+SCUT-CTW1500+Baidu Curved Scene Text
ICDAR2019-LSVT中英文30k full annotation + 40k weakly annotationLarge-scale Street View Text with Partial Labeling,
ICDAR2017-DeTextText Extraction from Biomedical Literature Figures, 生物医学文献图形中的文本提取
ICDAR 2011 (Born-Digital Images)、ICDAR 2017英文
CurvedSynText150k英文
Total-Text英文+少量中文1.5k各种形状的文本,包括水平的,多取向的和弯曲的
Lecture Video DB
IMGURhandwriting
KAIST
ILST印度语言三种印度语言(Devanagari 、 Telugu 和Malayalam)的场景文本识别数据集
VinText
BID巴西身份证件数据集
RCTW12k+手机野外拍摄,包括街景、海报、菜单、室内场景以及手机应用的截图
HierText (Google)英文自然图像或者文献

OCR方法

前沿text spotter方法

  • PSENet、PAN、PAN++(PAMI 2021)
  • DeepSolo (CVPR2023)

方法框架

  • mmocr: 集成方法并不是最新的(2022年以前的),其中预训练方法只支持英文,文字检测方法还可以检测出中文,文字识别无法识别中文,text spotter尚未介入到统一的接口中。

Github high star

  • tesseract(57.7k star):大概率是文字识别模型,C/C++,提供command line tool。
  • PaddleOCR(38.1k star): 80+ language support。提供轻量化、提供在线demo(后面有测试),provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices。
  • EasyOCR(21.8k star): pytorch based,文字检测基于CRAFT,识别基于LSTM+Transformer。Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.提供 在线DEMO。
  • tesseract.js (33.2k star): pure Javascript OCR for more than 100 Languages。
  • UniOCR (20.6k star): 提供一个界面。
  • OCRmyPDF (11.8k star): 解析pdf图片,基于tesseract。

PaddleOCR(PP-OCRv4)测试图如下

(1)弧形分布文字检测和识别都不准
PPOCRv4
(2) 放大了也识别不出来,应该和training data相关

Reference

  • https://mmocr.readthedocs.io/en/dev-1.x/
http://www.lryc.cn/news/338737.html

相关文章:

  • Windows环境下删除MySQL
  • uniapp:uview-plus的一些记录
  • OLTP 与 OLAP 系统说明对比和大数据经典架构 Lambda 和 Kappa 说明对比——解读大数据架构(五)
  • 步骤大全:网站建设3个基本流程详解
  • 利用Sentinel解决雪崩问题(二)隔离和降级
  • 基于springboot的房产销售系统源码数据库
  • 【MATLAB】基于Wi-Fi指纹匹配的室内定位-仿真获取WiFi RSSI数据(附代码)
  • 深圳晶彩智能ESP32-3248S035R使用LovyanGFX实现手写板
  • 【Spring Boot】深入解密Spring Boot日志:最佳实践与策略解析
  • ISTQB选择国内版,还是国际版呢
  • 头歌-机器学习 第11次实验 softmax回归
  • Qt for MCUs 2.7正式发布
  • 共享IP和独享IP如何选择,两者有何区别?
  • 文心一言VSchatGPT4
  • Linux 目录结构与基础查看命令
  • 【matlab】如何解决打开缓慢问题(如何让matlab在十几秒内打开)
  • 【stata】求滚动波动情况
  • The C programming language (second edition,KR) exercise(CHAPTER 2)
  • rust实现循环链表
  • 2. Spring的创建和Bean的存取
  • 策略模式【行为模式C++】
  • php中session相关知识(目前了解部分)
  • 从零实现诗词GPT大模型:GPT是怎么生成内容的?
  • 8路HDMI+8路AV高清视频流媒体编码器JR-3218HD
  • LangChain入门:14.LLMChain:最简单的链的使用
  • 深入理解k8s kube-proxy
  • Spark-机器学习(1)什么是机器学习与MLlib算法库的认识
  • java的正则表达式校验,包含了中国几乎所有运营商手机号码的校验格式
  • C#简单工厂模式的实现
  • .NET 设计模式—观察者模式(Observer Pattern)