当前位置：首页 > news >正文

用大模型或者预训练模型对图片进行OCR

news 2025/8/26 19:51:44

背景：使用大模型或者预训练模型（比如来自huggingface上的模型）对图片进行OCR，并将识别结果标记在图片原文的下方。

愿我们终有重逢之时，而你还记得我们曾经讨论的话题。

QQ group 868373192

QQ second group 277356808

要使用预训练模型对图片进行OCR（光学字符识别）并将识别结果标记在图片原文的下方，你可以使用Hugging Face上的`transformers`库和`pytesseract`库。以下是一个完整的代码示例，展示了如何实现这一功能。

### 1. 安装必要的库

首先，确保你已经安装了以下库：

```bash
pip install transformers pytesseract pillow
```

### 2. 代码实现

```python
import pytesseract
from PIL import Image, ImageDraw, ImageFont
from transformers import TrOCRProcessor, VisionEncoderDecoderModel

# 加载预训练的TrOCR模

http://www.lryc.cn/news/467257.html

相关文章：

如何使用的是github提供的Azure OpenAI服务

elementUI进度条el-progress不显示白色

学习笔记——路由——IP组播-PIM(协议无关组播)-概述/PIM模式

TCP 协议学习

python3的基本数据类型：String（字符串）

面试总结（2024/10/16）

从图像识别到聊天机器人：Facebook AI的多领域应用

linux中级（NFS服务器）

微软主动出击，“钓”出网络钓鱼者

Xcode16 编译运行YYCache iOS18 sqlite3_finalize 闪退问题解决方案

Kafka-Windows搭建全流程（环境，安装包，编译，消费案例，远程连接，服务自启，可视化工具）

django模板相关配置

MongoDB等保限制下的连接认证问题

2024 睿抗机器人开发者大赛（RAICOM)-【网络安全】CTF 部分WP

idea 无法输入中文快速解决

掌握ElasticSearch（五）：查询和过滤器

自学[vue+SpringCloud]-012-SpringCloud工程发送邮件

STM32通信协议-I2C

廉颇老矣尚能饭否，实践甘肃数据挖掘挑战赛作物与杂草的智能识别，基于YOLOv3全系列【tiny/l/spp】参数模型开发构建田间低头作物杂草智能化检测识别模型

基于Django+Python的宾馆管理系统设计与实现

MySQL--mysql的安装

qt 构建、执行qmake、运行、重新构建、清除

微软发布 Win11 22H2/23H2 十月可选更新KB5044380！

TensorFlow面试整理-TensorFlow 基础概念

Java实现HTTP代理的技巧与方法

MFC图形函数学习02——绘制像素点函数

Oracle CONNECT BY、PRIOR和START WITH关键字详解

gateway 整合 spring security oauth2

Unity3D学习FPS游戏（1）获取素材、快速了解三维模型素材（骨骼、网格、动画、Avatar、材质贴图）

Eclipse Java 构建路径