当前位置: 首页 > news >正文

【文档智能】实践:基于Yolo三行代码极简的训练一个版式分析模型

一、数据集

本文以开源的CDLA数据集做为实验,CDLA是一个中文文档版面分析数据集,面向中文文献类(论文)场景。包含以下10个label:

数据集下载地址:https://github.com/buptlihang/CDLA

数据集是labelme格式的文件,需要自行转化成yolo训练所需要的格式,最后文件放置形式如下:

注意:这个数据集有个问题就是缺乏段落标注,含相关段落标注的开源模型可以查看上篇《【文档智能】包含段落的开源的中文版面分析模型》

二、安装所需要的依赖

pip install ultralytics

三、配置yaml文件

cdla.yaml

#path: ./datasets/  # dataset root dir
train: cdla/images/train
val: cdla/images/dev
test:  # test images (optional)nc: 10   # 数据集类别数量
names: [ # 数据集标签'Text','Title','Figure','Figure caption','Table','Table caption','Header','Footer','Reference','Equation',
]

三、训练代码

from ultralytics import YOLO# model = YOLO('yolov8n.yaml')    # 重新训练模型
model = YOLO('yolov8n.pt')        # 加载预训练模型# Train the model
results = model.train(data='cdla.yaml', epochs=100, imgsz=640, device=0)

四、预测代码

from ultralytics import YOLOimage_path = ''  # 待预测图片路径
model_path = ''  # 权重路径
model = YOLO(model_path)result = model(image_path, save=True, conf=0.5, save_crop=False, line_width=2)
print(result)print(result[0].names)         # 输出id2label map
print(result[0].boxes)         # 输出所有的检测到的bounding box
print(result[0].boxes.xyxy)    # 输出所有的检测到的bounding box的左上和右下坐标
print(result[0].boxes.cls)     # 输出所有的检测到的bounding box类别对应的id
print(result[0].boxes.conf)    # 输出所有的检测到的bounding box的置信度
http://www.lryc.cn/news/373698.html

相关文章:

  • 聚观早报 | 深蓝G318价格发布;比亚迪方程豹豹3官图发布
  • 如何实现内网穿透?快解析-免费内网穿透工具
  • 【python-AI篇】人工智能技能树思维导图
  • Vue的computed大致细节
  • 第5章:模型预测控制(MPC)的代码实现
  • 论文学习day01
  • Github入门教程,适合新手学习(非常详细)
  • C# OpenCvSharp 代数运算-add、scaleAdd、addWeighted、subtract、absdiff、multiply、divide
  • 为什么说Python 是胶水语言?
  • GitLab教程(二):快速上手Git
  • 结构体知识点
  • C# —— 显示转换
  • zip加密txt文件后,暴力破解时会有多个解密密码可以打开的疑问??
  • css入门宝典
  • 【AI原理解析】— 星火大模型
  • StarNet实战:使用StarNet实现图像分类任务(一)
  • 单链表——AcWing.826单链表
  • 10:Hello, World!的大小
  • 【Pandas驯化-03】Pandas中常用统计函数mean、count、std、info使用
  • WordPress——Argon主题美化
  • Vue部分文件说明
  • 图书管理系统(SpringBoot+SpringMVC+MyBatis)
  • 11.泛型、trait和生命周期(上)
  • UML与设计模式
  • 如何在Spring Boot中实现图片上传至本地和阿里云OSS
  • 几个小创新模型,KAN组合网络(LSTM、GRU、Transformer)时间序列预测,python预测全家桶...
  • ubuntu18.04 配置 mid360并测试fast_lio
  • 基于Java的诊所医院管理系统,springboot+html,MySQL数据库,用户+医生+管理员三种身份,完美运行,有一万一千字论文
  • gvm 在ubuntu下安装
  • ChatTTS开源项目推荐