【AI视野·今日CV 计算机视觉论文速览 第304期】Thu, 7 Mar 2024
AI视野·今日CS.CV 计算机视觉论文速览
Thu, 7 Mar 2024
Totally 67 papers
👉上期速览✈更多精彩请移步主页
Daily Computer Vision Papers
DART: Implicit Doppler Tomography for Radar Novel View Synthesis Authors Tianshu Huang, John Miller, Akarsh Prabhakara, Tao Jin, Tarana Laroia, Zico Kolter, Anthony Rowe 仿真对于射频系统设计人员来说是一个非常宝贵的工具,可以快速构建用于成像、目标检测、分类和跟踪的各种算法的原型。然而,模拟真实的雷达扫描是一项具有挑战性的任务,需要精确的场景模型、射频材料特性以及相应的雷达合成函数。我们没有明确指定这些模型,而是提出了 DART 多普勒辅助雷达断层扫描,这是一种受神经辐射场启发的方法,它使用雷达特定的物理原理为距离多普勒图像创建基于反射率和透射率的渲染管道。然后,我们通过构建自定义数据收集平台并收集新颖的雷达数据集以及来自基于激光雷达的定位的准确位置和瞬时速度测量来评估 DART。 |
Self and Mixed Supervision to Improve Training Labels for Multi-Class Medical Image Segmentation Authors Jianfei Liu, Christopher Parnell, Ronald M. Summers 准确的训练标签是多类医学图像分割的关键组成部分。他们的注释既昂贵又耗时,因为它需要领域专业知识。这项工作旨在开发双分支网络并自动改进多类图像分割的训练标签。迁移学习用于训练网络并依次改进不准确的弱标签。双分支网络首先单独通过弱标签进行训练来初始化模型参数。网络稳定后,共享编码器被冻结,强弱解码器一起通过强弱标签进行微调。弱标签的准确率在微调过程中迭代提高。该方法应用于腹部 CT 扫描上肌肉、皮下和内脏脂肪组织的三级分割。对11名患者的验证结果显示,训练标签的准确性在统计上显着提高,肌肉、皮下和内脏脂肪组织的Dice相似系数分别从74.2增加到91.5、91.2到95.6和77.6到88.5,p < 0.05。与我们之前的方法相比,标签准确率也显着提高了 p 0.05 。 |
Latent Dataset Distillation with Diffusion Models Authors Brian B. Moser, Federico Raue, Sebastian Palacio, Stanislav Frolov, Andreas Dengel 机器学习的功效传统上依赖于越来越大的数据集的可用性。然而,大型数据集带来了存储挑战,并且包含无影响力的样本,这些样本在训练过程中可以被忽略,而不会影响模型的最终准确性。为了应对这些限制,出现了将数据集上的信息提炼成一组压缩的合成样本的概念,即提炼数据集。一个关键方面是所选择的架构,通常是用于链接原始数据集和合成数据集的 ConvNet。然而,如果所采用的模型架构与蒸馏期间使用的模型不同,则最终精度会较低。另一个挑战是生成高分辨率图像,例如 128x128 及更高。在本文中,我们提出了带有扩散模型 LD3M 的潜在数据集蒸馏,它将潜在空间中的扩散与数据集蒸馏相结合,以应对这两个挑战。 LD3M 结合了一种专为数据集蒸馏而定制的新颖扩散过程,提高了学习合成图像的梯度范数。通过调整扩散步骤的数量,LD3M 还提供了一种控制速度和精度之间权衡的直接方法。我们在几个 ImageNet 子集中以及高分辨率图像 128x128 和 256x256 中评估我们的方法。因此,LD3M 始终优于最先进的蒸馏技术高达 4.8 p.p.。和 4.2 页 |
Redefining cystoscopy with ai: bladder cancer diagnosis using an efficient hybrid cnn-transformer model Authors Meryem Amaouche, Ouassim Karrakchou, Mounir Ghogho, Anouar El Ghazzaly, Mohamed Alami, Ahmed Ameur 膀胱癌位列全球诊断最多的十大癌症之列,并且由于复发率高且需要终生随访,因此成为治疗费用最高的癌症之一。诊断的主要工具是膀胱镜检查,这在很大程度上依赖于医生的专业知识和解释。因此,每年都有大量病例未被诊断或误诊为泌尿系感染而被治疗。为了解决这个问题,我们提出了一种用于膀胱癌检测和分割的深度学习方法,该方法将 CNN 与轻量级位置编码自由变压器和双重注意力门结合起来,融合自我注意力和空间注意力以增强特征。本文建议的架构非常高效,适合需要实时推理的医疗场景。 |
Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning Authors Deepanway Ghosal, Vernon Toh Yan Han, Chia Yew Ken, Soujanya Poria 本文介绍了在视觉问答的背景下解决多模式谜题的新任务。我们提出了一个新的数据集 AlgoPuzzleVQA,旨在挑战和评估多模态语言模型解决算法难题的能力,这些算法难题需要视觉理解、语言理解和复杂的算法推理。我们创建的谜题涵盖了各种数学和算法主题,例如布尔逻辑、组合学、图论、优化、搜索等,旨在评估视觉数据解释和算法问题解决技能之间的差距。该数据集是根据人类编写的代码自动生成的。我们所有的谜题都有精确的解决方案,可以从算法中找到,无需繁琐的人工计算。它确保我们的数据集可以在推理复杂性和数据集大小方面任意扩展。我们的调查表明,GPT4V 和 Gemini 等大型语言模型 LLM 在解谜任务中表现有限。我们发现,在针对大量谜题的多项选择问答设置中,它们的表现几乎是随机的。 |
ECAP: Extensive Cut-and-Paste Augmentation for Unsupervised Domain Adaptive Semantic Segmentation Authors Erik Brorsson, Knut kesson, Lennart Svensson, Kristofer Bengtsson 我们考虑用于语义分割的无监督域适应 UDA,其中模型在标记的源数据集上进行训练并适应未标记的目标数据集。不幸的是,当前的自训练方法很容易受到错误预测导致的错误分类伪标签的影响。由于某些类别通常与 UDA 中不太可靠的预测相关,因此在不偏向某些类别的训练的情况下减少此类伪标签的影响是众所周知的困难。为此,我们提出了一种广泛的剪切和粘贴策略 ECAP,通过数据增强来利用可靠的伪标签。具体来说,ECAP 在整个训练过程中维护伪标记目标样本的存储库,并将最可信的样本剪切并粘贴到当前的训练批次中。我们在最新方法 MIC 的基础上实现了 ECAP,并在两个合成到真实域适应基准上提高了其性能。值得注意的是,MIC ECAP 在 Synthia Cityscapes 基准测试中达到了前所未有的 69.1 mIoU 性能。 |
Temporal Enhanced Floating Car Observers Authors Jeremias Gerner, Klaus Bogenberger, Stefanie Schmidtner 浮动汽车观察器 FCO 是一种通过部署配备传感器的车辆来检测和定位其他车辆来收集交通数据的创新方法。我们证明,即使 FCO 的渗透率很小,也可以识别给定十字路口的大量车辆。这是通过在微观交通模拟中模拟检测来实现的。此外,利用之前时刻的数据可以增强当前帧中车辆的检测。我们的研究结果表明,利用 20 秒的观察窗口,可以恢复 FCO 在当前时间步长内看不到的最多 20 辆车辆。为了利用这一点,我们开发了一种数据驱动策略,利用检测到的车辆的鸟瞰图 BEV 表示序列和深度学习模型。该方法旨在将当前未检测到的车辆纳入当前视野,从而增强当前检测到的车辆。不同时空架构的结果表明,最多 41 辆车辆可以在其当前位置恢复到当前时间步长。这一增强功能丰富了 FCO 最初可用的信息,从而可以改进对交通状态和指标(例如交通状况)的估计。 |
Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery Authors Wei Zhang, Miaoxin Cai, Tong Zhang, Guoqiang Lei, Yin Zhuang, Xuerui Mao 船舶检测需要从遥感RS场景中识别船舶位置。然而,由于不同的成像有效载荷、不同的船舶外观以及复杂的鸟瞰背景干扰,很难建立统一的范式来实现多源船舶检测。因此,在本文中,考虑到大型语言模型LLM具有强大的泛化能力,提出了一种新颖的统一视觉语言模型Popeye,用于遥感图像的多源船舶检测。首先,为了弥合船舶检测的多源图像之间的解释差距,设计了一种新颖的图像指令答案方式,将各种船舶检测方式(例如水平边界框 HBB 、定向边界框 OBB )集成到统一的标记范式中。然后,鉴于此,为所提出的 Popeye 开发了一种跨模态图像解释方法,以增强视觉和语言内容之间的交互理解能力,该方法可以轻松迁移到任何多源船舶检测任务中。随后,由于目标领域的差异,设计了一种知识适应机制,将预训练的视觉语言知识从自然场景适应到RS领域,以进行多源船舶检测。此外,分段任何模型 SAM 也无缝集成到所提出的 Popeye 中,以实现像素级船舶分割,而无需额外的训练成本。 |
Self-supervised Photographic Image Layout Representation Learning Authors Zhaoran Zhao, Peng Lu, Xujun Peng, Wenhao Guo 在图像布局表示学习领域,将图像布局转换为简洁矢量形式的关键过程在图像检索、操作和生成等各种应用中变得越来越重要。该领域的大多数方法严重依赖昂贵的标记数据集,并且特别缺乏使其建模和学习方法适应摄影图像布局的特定细微差别。这种缺陷使得摄影图像布局的学习过程不是最佳的。在我们的研究中,我们直接应对这些挑战。我们通过定义封装各种级别的布局信息的基本布局原语并将它们及其互连映射到异构图形结构上来进行创新。该图经过精心设计,可明确捕获像素域内复杂的布局信息。进一步推进,我们引入了新颖的借口任务与定制的损失函数相结合,战略性地设计用于这些布局图的有效自我监督学习。在此基础上,我们开发了一种基于自动编码器的网络架构,能够将这些异构布局图压缩为精确的、降维的布局表示。此外,我们还引入了 LODB 数据集,该数据集具有更广泛的布局类别和更丰富的语义,可以作为评估布局表示学习方法有效性的综合基准。 |
Unifying Generation and Compression: Ultra-low bitrate Image Coding Via Multi-stage Transformer Authors Naifu Xue, Qi Mao, Zijian Wang, Yuan Zhang, Siwei Ma 生成压缩技术的最新进展显着提高了压缩数据的感知质量。然而,这些进步主要集中在生成高频细节,往往忽略了生成模型捕获图像内容先验分布的能力,从而阻碍了极端压缩场景 0.05 bpp 中比特率的进一步降低。受无损压缩预测语言模型功能的启发,本文引入了一种新颖的统一图像生成压缩 UIGC 范例,合并了生成和压缩过程。 UIGC 框架的一个关键特征是采用矢量量化 VQ 图像模型进行标记化,以及旨在利用空间上下文信息对先验分布进行建模的多级变压器。因此,双重目的框架有效地利用学习到的先验进行熵估计并协助丢失令牌的再生。 |
Learning 3D object-centric representation through prediction Authors John Day, Tushar Arora, Jirui Liu, Li Erran Li, Ming Bo Cai 作为人类核心知识的一部分,对象的表征是支持高级概念和符号推理的心理表征的基石。虽然人类在没有监督的情况下发展出感知 3D 环境中物体的能力,但缺乏学习与人类婴儿面临的类似约束相同的能力集的模型。为此,我们开发了一种新颖的网络架构,它同时学习 1 从离散图像中分割对象,2 推断其 3D 位置,3 感知深度,同时仅使用大脑直接可用的信息作为训练数据,即图像序列和自我运动。核心思想是将物体视为视觉输入的潜在原因,大脑利用视觉输入对未来场景进行有效的预测。 |
CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D Object Detection Authors Gyusam Chang, Wonseok Roh, Sujin Jang, Dongwook Lee, Daehyun Ji, Gyeongrok Oh, Jinsun Park, Jinkyu Kim, Sangpil Kim 最近基于 LiDAR 的 3D 对象检测 3DOD 方法显示出有希望的结果,但它们通常不能很好地推广到源或训练数据分布之外的目标域。为了减少此类域差距,从而使 3DOD 模型更具通用性,我们引入了一种新颖的无监督域适应 UDA 方法,称为 CMDA,该方法利用图像模态(即相机图像)中的视觉语义线索作为有效的语义桥梁来关闭域跨模式鸟瞰 BEV 表示中的差距。此外,我们还引入了一种基于自训练的学习策略,其中模型经过对抗性训练以生成域不变特征,这破坏了特征实例是来自源域还是来自看不见的目标域的区分。总体而言,我们的 CMDA 框架指导 3DOD 模型为新颖的数据分布生成信息丰富且领域自适应的特征。 |
Multimodal Transformer for Comics Text-Cloze Authors Emanuele Vivoli, Joan Lafuente Baeza, Ernest Valveny Llobet, Dimosthenis Karatzas 这项工作探索了漫画中的结束任务,漫画是一种视觉和文本元素错综复杂地交织在一起的媒介。具体来说,文本完形填空是指在给定相邻面板的情况下选择要在漫画面板中使用的正确文本的任务。由于 OCR 准确性有限和固有的模型限制,基于循环神经网络的传统方法一直难以完成这项任务。我们引入了一种新颖的多模态大语言模型多模态 LLM 架构,专为文本完形填空而设计,在其简单变体和困难变体中均比现有最先进的模型实现了 10 倍的改进。我们方法的核心是基于领域适应 ResNet 50 的视觉编码器,使用 SimCLR 以自我监督的方式针对漫画领域进行微调。该编码器仅用五分之一的参数即可提供与更复杂模型相当的结果。此外,我们还为此数据集发布了新的 OCR 注释,提高了模型输入质量,并带来了另一项改进。 |
MeaCap: Memory-Augmented Zero-shot Image Captioning |