[2025CVPR-图象分类]ProAPO:视觉分类的渐进式自动提示优化
研究背景与问题
-
视觉语言模型(VLMs)的局限性:
- VLMs(如CLIP)在图像分类中依赖提示词(prompt)质量,传统方法存在以下问题:
- 人工设计模板需领域知识,难以扩展且缺乏细粒度区分(如“a photo of a {class}”)。
- 提示微调方法(prompt tuning)引入可学习参数,但需额外训练且可解释性差。
- LLM生成的描述可能因幻觉产生不准确或非视觉内容(如将食物描述为“feet”),且缺乏类间区分性(如不同海鸟的相同描述)。
- VLMs(如CLIP)在图像分类中依赖提示词(prompt)质量,传统方法存在以下问题:
-
核心问题:
如何在无人工干预、最小监督下,为细粒度分类任务生成视觉区分性强的类特定提示?
方法:ProAPO框架
1. 渐进式优化流程
-
阶段1:任务特定模板优化
- 初始化模板库(如CLIP的80个预定义模板),通过演化算法迭代优化模板集合。
- 操作符:
- 编辑操作(添加、删除、替换模板元素)。
- 演化操作(交叉融合高分模板,变异引入随机性)。
- 保留适应度得分(fitness score)最高的top-k模板