当前位置: 首页 > news >正文

Alpha-CLIP: A CLIP Model Focusing on Wherever You Want CVPR 2024

在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。

GitHub - SunzeY/AlphaCLIP: [CVPR 2024] Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

CLIP作为目前最流行的视觉基座模型被广泛使用。它的应用场景包括但不限于:

1.与LLM大语言模型结合成为视觉多模态大模型。

2.作为图像生成(Stable Diffusion)、点云生成(Point-E)的condition model, 实现image-to-3D。

3.用于指导NeRF的优化方向从而实现text-to-3D。

4.本身用于开放类别的识别和检测。

然而CLIP必须以整张图片作为输入并进行特征提取,无法关注到指定的任意区域。然而,自然的2D图片中往往包含不同的物体,part和thing。如果能由用户或检测模型指定需要关注的区域,在图像编码的过程就确定需要关注的对象,将会提升CLIP模型的可控制性和区域检测能力。

为了获取以区域为中心的 CLIP 特征,传统的方法如下图所示:

①:将感兴趣的区域裁剪到不同的patch

②:或将Mask应用于图像、特征和注意力掩码的不相关部分来排除不相关的区域。

这两种方法会破坏(裁剪)并省略(在掩蔽中)上下文信息,然而上下文信息对于精确的图像理解和推理至关重要。

③:在馈送到 CLIP 的图像上用圆圈或掩码轮廓突出感兴趣的区域。

尽管用户友好的,但它改变了图像的原始内容,这将导致不良识别和生成结果。

为了在不损害原始图像的情况下实现区域焦点,我们提出了Alpha-CLIP,它通过额外的alpha通道输入合并感兴趣的区域来改进CLIP[43]。除了 RGB 通道,引入的 alpha 通道使 Alpha-CLIP 能够专注于指定区域,同时保持对上下文信息的认识。在用CLIP[43]模型初始化时,Alpha-CLIP的训练仍然需要大量的区域-文本配对集合数据。通过利用分段任意模型(SAM)和多模态大型模型进行图像字幕,如BLIP-2[28],我们开发了一个有效的管道来生成数百万个易于转换为RGBA-文本数据的区域-文本对。在使用区域-文本对和图像-文本对的混合进行训练后,Alpha-CLIP可以专注于特定区域,同时保持CLIP的视觉识别精度。

http://www.lryc.cn/news/465524.html

相关文章:

  • Golang | Leetcode Golang题解之第495题提莫攻击
  • 04 go语言(golang) - 变量和赋值过程
  • 语言/图像/视频模型一网打尽!BigModel大模型开放平台助力开发者轻松打造AI新应用!
  • Go语言Linux环境搭建以编写第一个Go程序
  • 使用 Go 构建一个最小的 API 应用
  • MySQL 日常维护指南:常见任务、频率及问题解决
  • oracle ORA-24920:列大小对于客户机过大
  • 使用 Docker compose 部署 Nacos(达梦数据库)
  • 人工智能 | 阿里通义千问大模型
  • Windows环境下Qt Creator调试模式下qDebug输出中文乱码问题
  • java防止表单重复提交的注解@RepeatSubmit
  • HTTP快速入门
  • Nacos简介
  • 基于深度学习的稳健的模型推理与不确定性建模
  • C语言 sizeof 的介绍,以及sizeof计算数组名、 数组首地址、数组的元素之间的区别
  • 深入理解Oracle闪回技术
  • Go 语言初探
  • 使用ROS资源编排一键部署LNMP建站环境,手动整理教程
  • 猎板PCB镍钯金工艺你了解多少?
  • 热更新解决方案2 —— Lua语法相关知识点
  • 【c++ arx选项板】
  • 新时代下吉林省城乡流动人才就业问题及路径探析
  • Go 1.19.4 命令调用、日志、包管理、反射-Day 17
  • Unity 2d UI 实时跟随场景3d物体
  • 全方面熟悉Maven项目管理工具(二)坐标、pom.xml文件的解读!
  • php常用设计模式之单例模式
  • 一文搞懂Android主题和样式
  • 360与重庆科技大学战略携手,为数字中国建设输送实战人才
  • 基于异常合成的图像异常检测方法
  • 机器学习方向在算法优化上有哪些创新点?