使用LLaMA-Factory微调Qwen2.5-VL-3B 的目标检测任务-数据集格式转换(voc 转 ShareGPT)
一、LLaMA-Factory + Qwen2.5-VL + ShareGPT 格式要求
ShareGPT 格式就是多轮对话的 list,每条数据如下:
[{"conversations": [{"from": "user", "value": "<image>\n请标注图片中的所有目标及其类别和位置。"},{"from": "assistant", "value": "[{\"category\": \"person\", \"bbox\": [50, 100, 200, 300]}]"}],"image": "相对路径/xxx.jpg"},...
]
注意:
-
字段是
"from"
而不是"role"
; -
图片路径通常为相对路径,实际训练时配合
--image_folder
参数; -
你可以有任意多轮(这里只做单轮QA,适合目标检测)。