当前位置: 首页 > news >正文

GenerativeU:生成式开放目标检测


论文:https://arxiv.org/abs/2403.10191

代码:https://github.com/FoundationVision/GenerateU


感想

  1. 目标检测任务已经逐渐从闭集场景专项开集场景,在LLM加持下,速读越来越快。

  2. 该方法仍然依赖于预先定义的类别,这意味着它无法完全摆脱先验知识。尽管在论文中提到不需要确切对象类别知识。

整体脑图

d42e559d7062a3f0d5048ab21f00319a.jpeg

摘要

本文介绍了一种新的目标检测方法——生成式开放性物体检测(Generative Open-Ended Object Detection),旨在解决在推理阶段没有确切对象类别知识的情况下进行物体检测的问题。该方法将物体检测视为一个生成问题,并提出了名为GenerateU的简单框架,可以检测密集物体并以自由形式生成它们的名称。具体来说,该框架使用Deformable DETR作为区域提议器,并使用语言模型将视觉区域翻译为对象名称。实验结果表明,GenerateU具有强大的零样本检测性能,在LVIS数据集上与GLIP等开放词汇物体检测方法相比表现相当。

论文速读

论文方法

方法描述

该论文提出了一种名为GenerateU的开放世界目标检测模型,其主要由两个组件组成:开放世界目标检测器和语言模型。开放世界目标检测器使用了Deformable DETR作为基础模型,并在训练过程中不依赖于对象类别信息,而是采用了开放世界检测方式(即类无关的目标检测器),将匹配的查询分类为前景或背景。同时,该模型还引入了一个伪标签方法来丰富标签多样性。

方法改进

74ce15bb70f7843aa1a7445c92cd0102.png

与传统的基于图像和文本配对数据集的多模态预训练模型不同(如图1),该模型直接将开放世界目标检测器与语言模型链接起来,并激活两者可训练的模块。具体来说,该模型使用了一个编码器-解码器结构的语言模型(如图2),其中视觉表示作为输入传递给编码器,而相关的文本则作为解码器的生成目标。此外,该模型还引入了一个区域-词对齐损失函数,以帮助学习区分区域特征。

71a65c6bb4628f14ae2d256bf27e8320.png

解决的问题

该论文提出的GenerateU模型旨在解决开放世界目标检测中的问题,即将已知物体识别出并提供它们相应的类别名称,同时还能够检测到未知物体并对其进行命名。通过采用开放世界检测方式和区域-词对齐损失函数等技术手段,该模型可以提高开放世界目标检测的准确性和鲁棒性。此外,该模型还利用伪标签方法来增加标签多样性,从而进一步提高了模型的性能。

论文实验

本文主要介绍了针对开放领域的目标检测任务的模型GenerateU,并对其进行了多个对比实验以验证其性能和效果。

5c8ababc48bfa80d4fe31536e3910972.png 351e4d31e708d68930c80aa202212ffb.png 93789c0e41db647d65424dfe51f2b795.png

首先,文章比较了使用LVIS作为预训练数据的方法与只使用VG作为训练数据的方法在零样本下的表现。结果表明,即使只使用VG作为训练数据,GenerateU也能表现出良好的性能,这说明预先定义好的类别名称可能并不必要,尤其是当模型已经学习了大量的视觉概念时。此外,引入额外的图像文本对数据集可以进一步提高模型的表现。

其次,文章将GenerateU与其他方法进行了比较,包括GLIP等完全监督的方法。结果显示,GenerateU在零样本下与GLIP相比具有相当的性能,但不需要访问类别名称来进行推理。

此外,文章还进行了其他一些实验来评估模型的性能和效果。例如,通过使用不同的文本编码器(如CLIP和BERT)来计算相似度分数,以及使用METEOR评估生成的文本质量。另外,作者还尝试了不同大小的backbone和beam search的不同设置,并评估了region-word alignment loss的效果。

9409f5d657b370cd2e2a760c3ab529ae.png

最后,文章提供了定性的可视化结果,展示了GenerateU比ground truth更广泛地识别物体的能力。

14337561cfc81a1cbed197960c5bc04b.jpeg

总的来说,本文通过对GenerateU的多个对比实验,证明了其在开放领域目标检测任务中的优越性能和效果。

http://www.lryc.cn/news/466754.html

相关文章:

  • element plus e-table表格中使用多选,当翻页时已选中的数据丢失
  • CentOS 7 网络连接显示“以太网(ens33)不可用”
  • qt QNetworkProxy详解
  • 推荐IDE中实用AI编程插件,目前无限次使用
  • 【华为HCIP实战课程十五】OSPF的环路避免及虚链路,网络工程师
  • 【编程语言】正则表达式:POSIX 与 PCRE 的全面比较及应用
  • Spark Streaming 数据流处理
  • 高效规划神器 markmap:一键将 Markdown 变思维导图!
  • 微服务基础架构(图)
  • 中电金信:大模型时代 金融机构企业架构转型如何更智能化?
  • 基于CRNN模型的多位数字序列识别的应用【代码+数据集+python环境+GUI系统】
  • windows中命令行批处理脚本学习
  • 版本工具报错:Error Unity Version Control
  • ECharts饼图-饼图标签对齐,附视频讲解与代码下载
  • Python实现基于WebSocket的stomp协议调试助手工具分享
  • 《语音识别方案选型研究》
  • 解决关于HTML+JS + Servlet 实现前后端请求Session不一致的问题
  • ECharts饼图-饼图34,附视频讲解与代码下载
  • 如何实现安川MP3300运动控制器与西门子1200系列PLC进行ModbusTCP通讯
  • react18中如何实现同步的setState来实现所见即所得的效果
  • 深入理解MVP架构模式
  • Java面试题七
  • linux网络编程3——http服务器的实现和性能测试
  • Docker部署Kamailio,并使用LinPhone实现网络通话
  • JAVA-石头迷阵小游戏
  • 鸿蒙--进度条通知
  • 搜维尔科技:varjo xr-4开箱测评,工业用途头显,一流视觉保真度
  • mysql数据量分库分表
  • Vite创建Vue3项目以及Vue3相关基础知识
  • Elasticsearch封装公共索引增删改查