当前位置：首页 > news >正文

维基艺术图片：数据标注 (2)

news 2025/7/14 16:04:53

请添加图片描述

在第一阶段，我们通过爬虫获取了数千张未分类的图片。本阶段的核心目标是，对这些图片进行人工筛选和归类，将它们物理地分离到两个独立的文件夹中：good（代表喜欢）和 bad（代表不喜欢）。

这两个文件夹将作为第三阶段模型训练的直接数据源，供PyTorch的ImageFolder类使用，从而实现自动化的标签分配（good -> 1, bad -> 0）。
请添加图片描述

标注工作主要通过我自研的图片浏览应用 pinterest_image_app 完成。

该工具支持瀑布流式的高效图片浏览，并提供了便捷的文件操作接口，非常适合本次任务。

我的实际标注流程如下：

准备待标数据：
我从爬虫下载的原始图片池中，一次性选取一批（例如200-300张）图片，并将它们全部放入pinterest_image_app的应用输入目录（D:\fullStack\pinterest_image_app\python_api\user_uploads）。
执行标注操作：
- 筛选“喜欢”的图片：我在APP中浏览所有图片。当遇到符合我审美的图片时，我通过鼠标右键菜单的“保存”功能，将该图片直接保存到我的电脑桌面上。
- 处理“不喜欢”的图片：所有图片浏览完毕后，那些依然保留在APP输入目录中的图片，即是我“不喜欢”的样本。
整理最终的数据集文件夹：
- 我手动在我的项目工作区（例如 3_build_model/data/）内，创建了两个空的文件夹：good 和 bad。
- 我将桌面上所有通过右键保存下来的“喜欢”的图片，全部移动到 good 文件夹中。
- 我将APP输入目录中所有剩下的“不喜欢”的图片，全部移动到 bad 文件夹中。