维基艺术图片: 数据标注 (2)
完整的项目地址在这里: https://github.com/buxuele/wiki_art
一、 目标
在第一阶段,我们通过爬虫获取了数千张未分类的图片。本阶段的核心目标是,对这些图片进行人工筛选和归类,将它们物理地分离到两个独立的文件夹中:good
(代表喜欢)和 bad
(代表不喜欢)。
这两个文件夹将作为第三阶段模型训练的直接数据源,供PyTorch的ImageFolder
类使用,从而实现自动化的标签分配(good
-> 1, bad
-> 0)。
二、 使用的工具
标注工作主要通过我自研的图片浏览应用 pinterest_image_app
完成。
- GitHub地址:https://github.com/buxuele/pinterest_image_app
该工具支持瀑布流式的高效图片浏览,并提供了便捷的文件操作接口,非常适合本次任务。
三、 操作流程
我的实际标注流程如下:
-
准备待标数据:
我从爬虫下载的原始图片池中,一次性选取一批(例如200-300张)图片,并将它们全部放入pinterest_image_app
的应用输入目录(D:\fullStack\pinterest_image_app\python_api\user_uploads
)。 -
执行标注操作:
- 筛选“喜欢”的图片:我在APP中浏览所有图片。当遇到符合我审美的图片时,我通过鼠标右键菜单的“保存”功能,将该图片直接保存到我的电脑桌面上。
- 处理“不喜欢”的图片:所有图片浏览完毕后,那些依然保留在APP输入目录中的图片,即是我“不喜欢”的样本。
-
整理最终的数据集文件夹:
- 我手动在我的项目工作区(例如
3_build_model/data/
)内,创建了两个空的文件夹:good
和bad
。 - 我将桌面上所有通过右键保存下来的“喜欢”的图片,全部移动到
good
文件夹中。 - 我将APP输入目录中所有剩下的“不喜欢”的图片,全部移动到
bad
文件夹中。
- 我手动在我的项目工作区(例如
四、 阶段成果
在完成上述流程后,我得到了两个结构清晰、内容明确的物理文件夹:good
和 bad
。
这个结果,摒弃了所有复杂的中间JSON文件和匹配脚本,直接生成了模型训练阶段所需的、完美符合ImageFolder
格式的数据源。这为我们下一阶段的工作,提供了一个最简单、最直接、最可靠的起点。