当前位置: 首页 > news >正文

深度学习·ExCEL

WSSS

ExCEL方法

在这里插入图片描述

TSE

“only indicates the presence of objects while limited providing dense knowledge for” (Yang 等, 2025, p. 20225) (pdf) 🔤仅表示物体的存在,而有限地提供密集的知识🔤

  • 传统的text prompt 只能表示物体存在,不能提供任何其他的信息,所以在语义分割这种密集任务中表现不佳.
  • 对每一个类都查询GPT获得具体的描述信息,总共n=20个特征
    在这里插入图片描述

“This knowledge base gathers descriptive properties for the whole dataset, building a strong foundation for the textual category representation” (Yang 等, 2025, p. 20226) (pdf) 🔤该知识库收集了整个数据集的描述性属性,为文本类别表示奠定了坚实的基础🔤

  • 作者不是简单的讲所有GPT生成的额外类别属性简单的融合,而是将这些属性聚类为更加通用的属性,将其转换为一种隐式属性的搜索过程

“The clustered attributes efficiently capture shared contextual knowledge from other categories, supplementing missing information for target class recognition” (Yang 等, 2025, p. 20226) (pdf) 🔤聚类属性有效地捕获来自其他类别的共享上下文知识,补充目标类识别的缺失信息🔤
“The use of attributes makes the knowledge more compact and representative, leading to precise text prompting.” (Yang 等, 2025, p. 20226) (pdf) 🔤属性的使用使知识更加紧凑和具有代表性,从而实现精确的文本提示。🔤

  • 作者对这些知识库中的属性进行聚类,得到B个聚类中心,其中B=112或者224(Pascal VOC or COCO)
    在这里插入图片描述
  • 给定一个class token,将聚类中心与其计算相似度分数,然后根据分数选取前K个进行text embedding的融合,权重就是聚类分数,然后注意有个权重λ\lambdaλ
    在这里插入图片描述

VC Visual Calibrations

  • 动机:CLIP缺乏细粒度的信息,导致补丁和文本对齐不合理。

“lack fine-grained information, leading to unreasonable localization maps via patch-text alignment.” (Yang 等, 2025, p. 20226) (pdf) 🔤缺乏细粒度信息,导致通过补丁文本对齐导致不合理的本地化映射。🔤

Static Visual Calibration

However, due to the inherent image-text alignment of CLIP, the original q-k attention produces overly uniform attention maps,
“homogenizing diverse tokens from v to capture broad semantics for global image representation (see discussions in Sec. 4.4).” (Yang 等, 2025, p. 20226) (pdf) 🔤将 V 中的不同标记同质化,以捕获全局图像表示的广泛语义(参见第 4.4 节中的讨论)。🔤

  • 将自注意力机制替换为Intra-correltation机制
  • 只在最后几层进行计算,分别对q,k,v计算,权重相等。
  • 在这里插入图片描述

Learnable Visual Calibration

  • 简单来说,就是引用一个额外的适配器adptor
  • 对通过刚才方式计算的注意图进行额外的修正
  • R矩阵的目的是:影响特征的分布,激活相关的token,避免激活无关的token

在这里插入图片描述

  • 训练适配器的损失函数:
    在这里插入图片描述

在这里插入图片描述

http://www.lryc.cn/news/619820.html

相关文章:

  • RK3568项目(十五)--linux驱动开发之进阶驱动
  • Spring Boot (v3.2.12) + application.yml + jasypt 数据源加密连接设置实例
  • Java Stream API 中常用方法复习及项目实战示例
  • AR技术赋能风电组装:效率提升30%,错误率降低50%
  • 华为悦盒EC6108V9-1+4G版-盒子有【蓝色USB接口】的特殊刷机说明
  • UniApp开发常见问题及解决办法
  • RabbitMQ面试精讲 Day 21:Spring AMQP核心组件详解
  • FluxApi - 使用Spring进行调用Flux接口
  • 后端Web实战-MySQL数据库
  • 【SpringBoot系列-01】Spring Boot 启动原理深度解析
  • 力扣121:买卖股票的最佳时机
  • 敲响变革的钟声:AI 如何重塑前端开发的基础认知
  • Java毕业设计选题推荐 |基于SpringBoot的水产养殖管理系统 智能水产养殖监测系统 水产养殖小程序
  • Kubernetes部署apisix的理论与最佳实践(三)
  • 从原材料到成品,光模块 PCB 制造工艺全剖析
  • JavaWeb-XML、HTTP协议和Tomcat服务器
  • 解析Vue3中集成WPS Web Office SDK的最佳实践
  • DAY42 Grad-CAM与Hook函数
  • Spring Boot调用优化版AI推理微服务 集成 NVIDIA NIM指南
  • 利用生成式AI与大语言模型(LLM)革新自动化软件测试 —— 测试工程师必读深度解析
  • Pycharm选好的env有包,但是IDE环境显示无包
  • Appium-移动端自动测试框架详解
  • windows通过共享网络上网
  • 100、【OS】【Nuttx】【构建】cmake 配置保存
  • 2025年跨网文件摆渡系统分析,跨网文件交换系统实现瞬间数据互通
  • Windows基础概略——第一阶段
  • 5种缓存策略解析
  • scikit-learn/sklearn学习|岭回归linear_model.Ridge()函数解读
  • 流处理 or 批处理?大数据架构还需要流批一体吗?
  • USB基础 -- USB2.0设备插入的过程