当前位置：首页 > news >正文

[2025CVPR-图象分类]ProAPO：视觉分类的渐进式自动提示优化

news 2025/7/30 7:53:50

研究背景与问题

视觉语言模型（VLMs）的局限性：
- VLMs（如CLIP）在图像分类中依赖提示词（prompt）质量，传统方法存在以下问题：
  - 人工设计模板需领域知识，难以扩展且缺乏细粒度区分（如“a photo of a {class}”）。
  - 提示微调方法（prompt tuning）引入可学习参数，但需额外训练且可解释性差。
  - LLM生成的描述可能因幻觉产生不准确或非视觉内容（如将食物描述为“feet”），且缺乏类间区分性（如不同海鸟的相同描述）。
核心问题：

如何在无人工干预、最小监督下，为细粒度分类任务生成视觉区分性强的类特定提示？

方法：ProAPO框架

1. 渐进式优化流程

阶段1：任务特定模板优化
- 初始化模板库（如CLIP的80个预定义模板），通过演化算法迭代优化模板集合。
- 操作符：
  - 编辑操作（添加、删除、替换模板元素）。
  - 演化操作（交叉融合高分模板，变异引入随机性）。
- 保留适应度得分（fitness score）最高的top-k模板

http://www.lryc.cn/news/603496.html

相关文章：

B 站搜一搜关键词优化：精准触达用户的流量密码

deepseek+飞书多维表格打造小红书矩阵

线程崩溃是否导致进程崩溃

【CAN总线】STM32 的 CAN 总线通信开发笔记（基于 HAL）

【开源项目】轻量加速利器 HubProxy 自建 Docker、GitHub 下载加速服务

系统改造：一次系统领域拆分的实战复盘

多态示例。

kotlin使用mybatis plus lambdaQuery报错

XtestRunner一个比较好用好看的生成测试报告的工具

系统间复制文档

论文阅读--射频电源在半导体领域的应用

React--》实现 PDF 文件的预览操作

配置daemon.json使得 Docker 容器能够使用服务器GPU【验证成功】

VitePress学习笔记

彻底清理ArcGIS 10.2残留的步骤

Windows使用Powershell自动安装SqlServer2025服务器与SSMS管理工具

Vue.js 完全指南：从入门到精通

getgff.py脚本-python006

openbmc 阈值sensor分析

计算机视觉（CV方向）算法基础

SketchUp纹理贴图插件Architextures安装使用图文教程

Linux sshfs 安全挂载远程文件系统命令详解

Angular面试题目和答案大全

AR辅助前端设计：虚实融合场景下的设备维修指引界面开发实践

Mac m系列芯片安装node14版本使用nvm + Rosetta 2

YotoR模型：Transformer与YOLO新结合，打造“又快又准”的目标检测模型

VUE -- 基础知识讲解（一）

【MySQL】数据库的简单介绍

Node.js 内置模块

安卓模拟器 adb Frida hook 抓包