当前位置: 首页 > news >正文

【AI视野·今日CV 计算机视觉论文速览 第271期】Thu, 19 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 19 Oct 2023
Totally 63 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection
Authors Lingchen Meng, Xiyang Dai, Jianwei Yang, Dongdong Chen, Yinpeng Chen, Mengchen Liu, Yi Ling Chen, Zuxuan Wu, Lu Yuan, Yu Gang Jiang
长尾对象检测 LTOD 旨在处理现实世界数据集中的极端数据不平衡,其中许多尾类实例稀缺。一种流行的策略是使用图像级标签探索额外的数据,但由于 1 语义模糊性,图像级标签仅捕获图像的显着部分,忽略图像内剩余的丰富语义和 2 标签的位置敏感性,它产生的结果有限很大程度上取决于原始图像的位置和裁剪,在随机裁剪等数据转换后可能会发生变化。为了解决这个问题,我们提出了 RichSem,这是一种简单但有效的方法,它可以稳健地从粗略位置学习丰富的语义,而不需要精确的边界框。 RichSem 利用图像中丰富的语义,然后将其用作训练检测器的附加软监督。具体来说,我们向检测器添加一个语义分支来学习这些软语义并增强长尾对象检测的特征表示。语义分支仅用于训练,在推理过程中被删除。 RichSem 在不同主干网和检测器下对 LVIS 的整体和稀有类别实现了一致的改进。我们的方法无需复杂的培训和测试程序即可实现最先进的性能。此外,我们通过额外的实验展示了我们的方法在其他长尾数据集上的有效性。

Object-aware Inversion and Reassembly for Image Editing
Authors Zhen Yang, Dinggang Gui, Wen Wang, Hao Chen, Bohan Zhuang, Chunhua Shen
通过比较编辑任务中的原始提示和目标提示,我们可以得到许多编辑对,每个编辑对由一个对象及其对应的编辑目标组成。为了在保持输入图像保真度的同时实现可编辑性,现有的编辑方法通常涉及固定数量的反转步骤,将整个输入图像投影到其噪声较大的潜在表示,然后进行由目标提示引导的去噪过程。然而,我们发现,由于不同的编辑难度,实现理想编辑结果的最佳反转步骤数在不同的编辑对之间存在显着差异。因此,当前依赖于固定数量的反演步骤的文献会产生次优的生成质量,特别是在处理自然图像中的多个编辑对时。为此,我们提出了一种新的图像编辑范例,称为对象感知反转和重组 OIR,以实现对象级细粒度编辑。具体来说,我们设计了一种新的搜索度量,通过共同考虑目标的可编辑性和非编辑区域的保真度,确定每个编辑对的最佳反转步骤。在编辑图像时,我们使用搜索指标来找到每个编辑对的最佳反转步骤。然后,我们分别编辑这些编辑对,以避免概念不匹配。随后,我们提出了一个额外的重组步骤,将各个编辑结果和非编辑区域无缝集成,以获得最终的编辑图像。为了系统地评估我们方法的有效性,我们收集了两个数据集,分别用于对单对象和多对象编辑进行基准测试。

http://www.lryc.cn/news/204542.html

相关文章:

  • GoLong的学习之路(四)语法之循环语句
  • 【Lua语法】字符串
  • 程序员节的由来
  • 订水商城H5实战教程-03用户协议
  • 淘宝app商品详情源数据API接口(解决滑块问题)可高并发采集
  • xcode15一直显示正在连接iOS17真机问题解决
  • stm32通过AT指令与esp8622通信
  • Flutter 类似onResume 监听,解决入场动画卡顿
  • 1024勋章
  • C++栈、队列、优先级队列模拟+仿函数
  • ES挂载不上怎么处理?
  • 问题与分类
  • 021-Qt 配置GitHub Copilot
  • 如何使用 PostgreSQL 进行数据迁移和整合?
  • Qt Signals Slots VS QEvents - Qt跨线程异步操作性能测试与选取建议
  • Postgres 和 MySQL 应该怎么选?
  • 【在英伟达nvidia的jetson-orin-nx和PC电脑ubuntu20.04上-装配ESP32开发调试环境-基础测试】
  • 我终于搞明白了HTTPS协议了!超长文章!
  • Golang Testify介绍
  • DALL·E 3怎么用?DALL·E 3如何申请开通 ?DALL·E 3如何免费使用?AI绘画教程来喽~
  • 安装 Dispatch 库
  • 【Unity程序技巧】异步保险箱管理器
  • ChatGPT 助力英文论文翻译和润色
  • 【2024秋招】腾讯云智武汉后端开发一面 2023-9-20
  • k8s-----16、配置管理-ConfigMap
  • QML QTP0001 not set 警告
  • Mac M1编译 swift 5.8.1源码
  • [极客大挑战 2019]EasySQL
  • 统信UOS技术开放日:四大领域全面接入AI大模型能力
  • 【Linux系统编程:信号】产生信号 | 阻塞信号 | 处理信号 | 可重入函数