当前位置：首页 > news >正文

机器学习笔记 - Ocr识别中的CTC算法原理概述

news 2025/8/25 11:51:36

一、文字识别

在文本检测步骤中，分割出了文本区域。现在需要识别这些片段中存在哪些文本。

机器学习笔记 - Ocr识别中的文本检测EAST网络概述-CSDN博客文章浏览阅读300次。在 EAST 网络的这个分支中，它合并了 VGG16 网络不同层的特征输出。现在，该层之后的特征大小将等于 pool4 层的输出，然后将两者合并到一层中。全卷积网络用于定位图像中的文本，该 NMS 阶段基本上用于将许多不精确检测到的文本框合并到每个文本区域（单词或行文本）的单个边界框中。幸运的是，可以使用预先训练的权重，可以从下面链接下载。EAST 架构是在考虑不同大小的字区域的情况下创建的。类似地，VGG16 模型其他层的输出被连接起来，最后，应用 Conv 3×3 层在输出层之前生成最终的特征映射层。https://skydance.blog.csdn.net/article/details/134481120 例如，请参见下图，其中左侧有片段，右侧有识别的文本。这就是我们想要的结果。

http://www.lryc.cn/news/237430.html

相关文章：

系列二、Lock接口

JVM虚拟机：通过日志学习PS+PO垃圾回收器

从0开始学习JavaScript--JavaScript使用Promise

使用契约的链上限价订单

Iceberg学习笔记（1）—— 基础知识

springboot中动态api如何设置

Java —— 抽象类和接口

数字IC前端学习笔记：异步复位，同步释放

Linux内核移植之网络驱动更改说明一

邮件|gitpushgithub报错|Lombok注解

【前端知识】Node——events模块的相关方法

广州华锐互动VRAR | VR课件内容编辑器解决院校实践教学难题

Wireshark抓包：理解TCP三次握手和四次挥手过程

网络工程师-HCIA网课视频学习

【每日刷题——语音信号篇】

Linux进程通信——IPC、管道、FIFO的引入

数理统计的基本概念（一）

clickhouse分布式之弹性扩缩容的故事

数据结构--串的基本概念

音视频流媒体之 IJKPlayer FFmpeg Android 编译

记录一次较为完整的Jenkins发布流程

Virtual安装centos后，xshell连接centos 测试及遇到的坑

【算法】最优乘车——bfs（stringsteam的实际应用，getline实际应用）

『亚马逊云科技产品测评』活动征文｜通过lightsail一键搭建Drupal VS 手动部署

使用 VuePress 和 Vercel 打造个人技术博客：实现自动化部署

Re50：读论文 Large Language Models Struggle to Learn Long-Tail Knowledge

Spring IOC - Bean的生命周期之依赖注入

Android Termux安装MySQL，内网穿透实现公网远程访问

OpenCV快速入门：像素操作和图像变换

Django 路由配置（二）