当前位置: 首页 > news >正文

维基艺术图片: 数据标注 (2)

请添加图片描述

完整的项目地址在这里: https://github.com/buxuele/wiki_art

一、 目标

在第一阶段,我们通过爬虫获取了数千张未分类的图片。本阶段的核心目标是,对这些图片进行人工筛选和归类,将它们物理地分离到两个独立的文件夹中:good(代表喜欢)和 bad(代表不喜欢)。

这两个文件夹将作为第三阶段模型训练的直接数据源,供PyTorch的ImageFolder类使用,从而实现自动化的标签分配(good -> 1, bad -> 0)。
请添加图片描述

二、 使用的工具

标注工作主要通过我自研的图片浏览应用 pinterest_image_app 完成。

  • GitHub地址:https://github.com/buxuele/pinterest_image_app

该工具支持瀑布流式的高效图片浏览,并提供了便捷的文件操作接口,非常适合本次任务。

三、 操作流程

我的实际标注流程如下:

  1. 准备待标数据
    我从爬虫下载的原始图片池中,一次性选取一批(例如200-300张)图片,并将它们全部放入pinterest_image_app的应用输入目录(D:\fullStack\pinterest_image_app\python_api\user_uploads)。

  2. 执行标注操作

    • 筛选“喜欢”的图片:我在APP中浏览所有图片。当遇到符合我审美的图片时,我通过鼠标右键菜单的“保存”功能,将该图片直接保存到我的电脑桌面上。
    • 处理“不喜欢”的图片:所有图片浏览完毕后,那些依然保留在APP输入目录中的图片,即是我“不喜欢”的样本。
  3. 整理最终的数据集文件夹

    • 我手动在我的项目工作区(例如 3_build_model/data/)内,创建了两个空的文件夹:goodbad
    • 我将桌面上所有通过右键保存下来的“喜欢”的图片,全部移动good 文件夹中。
    • 我将APP输入目录中所有剩下的“不喜欢”的图片,全部移动bad 文件夹中。

四、 阶段成果

在完成上述流程后,我得到了两个结构清晰、内容明确的物理文件夹:goodbad

这个结果,摒弃了所有复杂的中间JSON文件和匹配脚本,直接生成了模型训练阶段所需的、完美符合ImageFolder格式的数据源。这为我们下一阶段的工作,提供了一个最简单、最直接、最可靠的起点。

http://www.lryc.cn/news/587367.html

相关文章:

  • java: DDD using oracle 21c
  • 树莓派5-ollama-linux-arm64.tgz 下载
  • KL散度:信息差异的量化标尺 | 从概率分布对齐到模型优化的核心度量
  • 强化学习初探及OREAL实践
  • Leaflet面试题及答案(61-80)
  • Flink数据流高效写入MySQL实战
  • XCZU2CG-2SFVC784I Xilinx FPGA AMD Zynq UltraScale+ MPSoC
  • Vivado ILA抓DDR信号(各种IO信号:差分、ISERDES、IOBUFDS等)
  • 六、深度学习——NLP
  • 无缝衔接直播流体验
  • 早期 CNN 的经典模型—卷积神经网络(LeNet)
  • 板凳-------Mysql cookbook学习 (十一--------8)
  • 【深度学习新浪潮】什么是新视角合成?
  • STM32-第五节-TIM定时器-1(定时器中断)
  • JAVA并发——synchronized的实现原理
  • 特征选择方法
  • 一文打通MySQL任督二脉(事务、索引、锁、SQL优化、分库分表)
  • GraphRAG Docker化部署,接入本地Ollama完整技术指南:从零基础到生产部署的系统性知识体系
  • AEC线性处理
  • 【iOS】方法与消息底层分析
  • 【设计模式】命令模式 (动作(Action)模式或事务(Transaction)模式)宏命令
  • phpMyAdmin:一款经典的MySQL在线管理工具又回来了
  • 【RA-Eco-RA6E2-64PIN-V1.0 开发板】ADC 电压的 LabVIEW 数据采集
  • 第一个Flink 程序 WordCount,词频统计(批处理)
  • git实操
  • 鸿蒙项目构建配置
  • 区分三种IO模型和select/poll/epoll
  • Java设计模式之行为型模式(命令模式)
  • Spring Boot + MyBatis 实现用户登录功能详解(基础)
  • JAVA学习笔记 JAVA开发环境部署-001