当前位置: 首页 > news >正文

使用LLaMA-Factory微调Qwen2.5-VL-3B 的目标检测任务-数据集格式转换(voc 转 ShareGPT)

一、LLaMA-Factory + Qwen2.5-VL + ShareGPT 格式要求

ShareGPT 格式就是多轮对话的 list,每条数据如下:

[{"conversations": [{"from": "user", "value": "<image>\n请标注图片中的所有目标及其类别和位置。"},{"from": "assistant", "value": "[{\"category\": \"person\", \"bbox\": [50, 100, 200, 300]}]"}],"image": "相对路径/xxx.jpg"},...
]

注意:

  • 字段是 "from" 而不是 "role"

  • 图片路径通常为相对路径,实际训练时配合 --image_folder 参数;

  • 你可以有任意多轮(这里只做单轮QA,适合目标检测)。

http://www.lryc.cn/news/583010.html

相关文章:

  • 【洛谷题单】--顺序结构(一)
  • C++高频知识点(六)
  • [NOIP][C++]洛谷P1376 [USACO05MAR] Yogurt factory 机器工厂
  • LeetCode--42.接雨水
  • C++(STL源码刨析/vector)
  • 从历史航拍图像中去除阴影
  • 11款常用C++在线编译与运行平台推荐与对比
  • 力扣-75.颜色分类
  • Web后端开发-Mybatis
  • qt-C++笔记之setCentralWidget的使用
  • 软件系统测试的基本流程
  • 数据结构*搜索树
  • 从零开始手写嵌入式实时操作系统
  • 牛市来临之际,如何用期权抢占反弹先机?
  • 初识mysql(一)
  • [特殊字符] AlphaGo:“神之一手”背后的智能革命与人机博弈新纪元
  • 【深度学习新浪潮】什么是蛋白质反向折叠模型?
  • 深度学习超参数优化(HPO)终极指南:从入门到前沿
  • FairyGUI 实现 Boss 双层血条动画
  • qt-C++语法笔记之Stretch与Spacer的关系分析
  • 分库分表之实战-sharding-JDBC水平分库+水平分表配置实战
  • LeetCode题解---<三数之和>
  • 自动化一次通过率
  • 深度学习环境配置:PyTorch、CUDA和Python版本选择
  • 深度剖析:向70岁老系统植入通信芯片——MCP注入构建未来级分布式通信
  • 模型训练篇 | 如何用YOLOv13训练自己的数据集(以明火烟雾检测举例)
  • HTML+JS+CSS制作一个数独游戏
  • 原生屏幕旋转算法(AccelSensor)
  • 力扣-31.下一个排列
  • Python打卡:Day47