当前位置: 首页 > news >正文

[2025CVPR-图象分类]ProAPO:视觉分类的渐进式自动提示优化

研究背景与问题

  1. 视觉语言模型(VLMs)的局限性​:

    • VLMs(如CLIP)在图像分类中依赖提示词(prompt)质量,传统方法存在以下问题:
      • 人工设计模板需领域知识,难以扩展且缺乏细粒度区分(如“a photo of a {class}”)。
      • 提示微调方法​(prompt tuning)引入可学习参数,但需额外训练且可解释性差。
      • LLM生成的描述可能因幻觉产生不准确或非视觉内容(如将食物描述为“feet”),且缺乏类间区分性(如不同海鸟的相同描述)。
  2. 核心问题​:

    如何在无人工干预、最小监督下,为细粒度分类任务生成视觉区分性强的类特定提示?​


方法:ProAPO框架

1. 渐进式优化流程
  • 阶段1:任务特定模板优化

    • 初始化模板库(如CLIP的80个预定义模板),通过演化算法迭代优化模板集合。
    • 操作符​:
      • 编辑操作​(添加、删除、替换模板元素)。
      • 演化操作​(交叉融合高分模板,变异引入随机性)。
    • 保留适应度得分(fitness score)最高的top-k模板
http://www.lryc.cn/news/603496.html

相关文章:

  • B 站搜一搜关键词优化:精准触达用户的流量密码
  • deepseek+飞书多维表格 打造小红书矩阵
  • 线程崩溃是否导致进程崩溃
  • 【CAN总线】STM32 的 CAN 总线通信开发笔记(基于 HAL)
  • 【开源项目】轻量加速利器 HubProxy 自建 Docker、GitHub 下载加速服务
  • 系统改造:一次系统领域拆分的实战复盘
  • 多态示例。
  • kotlin使用mybatis plus lambdaQuery报错
  • XtestRunner一个比较好用好看的生成测试报告的工具
  • 系统间复制文档
  • 论文阅读--射频电源在半导体领域的应用
  • React--》实现 PDF 文件的预览操作
  • 配置daemon.json使得 Docker 容器能够使用服务器GPU【验证成功】
  • VitePress学习笔记
  • 彻底清理ArcGIS 10.2残留的步骤
  • Windows使用Powershell自动安装SqlServer2025服务器与SSMS管理工具
  • Vue.js 完全指南:从入门到精通
  • getgff.py脚本-python006
  • openbmc 阈值sensor分析
  • 计算机视觉(CV方向)算法基础
  • SketchUp纹理贴图插件Architextures安装使用图文教程
  • Linux sshfs 安全挂载远程文件系统 命令详解
  • Angular面试题目和答案大全
  • AR辅助前端设计:虚实融合场景下的设备维修指引界面开发实践
  • Mac m系列芯片安装node14版本使用nvm + Rosetta 2
  • YotoR模型:Transformer与YOLO新结合,打造“又快又准”的目标检测模型
  • VUE -- 基础知识讲解(一)
  • 【MySQL】数据库的简单介绍
  • Node.js 内置模块
  • 安卓模拟器 adb Frida hook 抓包