当前位置: 首页 > news >正文

LISA: Reasoning Segmentation via Large Language Model

发表时间:CVPR 2024

论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Lai_LISA_Reasoning_Segmentation_via_Large_Language_Model_CVPR_2024_paper.pdf

作者单位:CUHK

Motivation尽管感知系统近年来取得了显著的进展,但在执行视觉识别任务之前,它们仍然依赖于明确的人类指令或预定义的类别来识别目标对象。此类系统无法积极推理和理解隐含的用户意图我们能否使多模态llm能够输出分割掩码?

解决方法:在这项工作中,我们提出了一个新的分割任务——推理分割。该任务旨在在给定复杂和隐式查询文本的情况下输出分割掩码。 举个例子:

为了完成这项任务,模型必须具备两个关键能力:1)与图像联合推理复杂和隐式文本查询; 2)生成分割掩码

实现方式

  • 我们提出了 LISA:大型语言指令分割助手,它继承了多模态大型语言模型 (LLM) 的语言生成能力,同时还具有生成分割掩码的能力。

  • 我们用<SEG>令牌扩展原始词汇表,并提出嵌入掩码范式来解锁分割能力。

  • 我们建立了一个包含超过一千个图像指令掩码数据样本的基准,将复杂的推理和世界知识纳入评估目的。

模型结构:除非另有说明,否则我们使用LLAVA-7B-v1-1或LLAVA-13B-v1-1作为基础多模态LLM F,并采用ViT-H SAM骨干作为视觉骨干Fenc。γ的projection layer是一个通道为[256,4096,4096]的MLP

训练参数:为了保持预先训练的多模态LLM (即我们实验中的LLAVA)的学习知识,我们利用LoRA对LLM进行有效的微调并完全冻结视觉骨干Fenc解码器 Fdec 被完全微调。此外,LLM token embeddings (embed tokens)、LLM头((lm head)和投影层γ也是可训练的

实验

数据集:training data comprises mainly three parts:Semantic Segmentation Dataset,Vanilla Referring Segmentation Dataset,Visual Question Answering Dataset.

结论

  1. a new segmentation task—reasoning segmentation。

  2. introduced an evaluation benchmark ReasonSeg, which comprises over one thousand data samples。

  3. 提出模型——LISA。它将分割能力注入到当前的多模态llm中,并在推理分割任务中表现出奇地有效。

http://www.lryc.cn/news/421103.html

相关文章:

  • 企业发展与数字化转型:创新驱动未来增长的关键策略
  • 如何选择适合自己的编程语言,为什么R是非计算机专业数据分析的最佳选择,五大点告诉你
  • 【经验分享】数据结构——求树的叶子结点个数计算方法
  • 第十一章:图论part04 110.字符串接龙 105.有向图的完全可达性 106.岛屿的周长(补)
  • Linux中安装MYSQL数据库
  • Vue前端服务加密后端服务解密--AES算法实现
  • matlab实现文字识别
  • Leetcode - 周赛409
  • 突破百度网盘的下载限速,两种方法教会你【超详细】
  • 整理 酷炫 Flutter 优质 布局、交互 开源App
  • 【PyCharm怎么同时打开多个项目】
  • 使用 ProcDump 调试 Linux
  • 2023年中国城市统计年鉴(PDF+excel)
  • 自用 K8S 资源对象清单 YAML 配置模板手册-1
  • 【数据库】事务 | 视图 | 自定义函数创建
  • Linux---进程(5)---进程地址空间
  • C语言实现数据结构之队列
  • 写一个Vue2和vue3的自定义指令(以复制指定作为示例)
  • MySQL —— 聚合查询,分组查询 与 联合查询
  • Spring声明式事务失效场景
  • 基于SpringBoot+UniAPP宠物食品外卖点单小程序的设计与实现》
  • ssrf 内网访问 伪协议 读取文件 端口扫描
  • 发布包到npm
  • Python | Leetcode Python题解之第324题摆动排序II
  • IGModel——提高基于 GNN与Attention 机制的方法在药物发现中的实用性
  • AArch64中的寄存器
  • 树莓派Pico 2来了
  • LeetCode面试题Day7|LeetCode135 分发糖果、LeetCode42 接雨水
  • [免费]适用于 Windows 10 的十大数据恢复软件
  • Win11+docker+vscode配置anomalib并训练自己的数据(3)