当前位置: 首页 > news >正文

《OpenScene: 3D Scene Understanding with Open Vocabularies》阅读笔记1

传统的3D场景理解方法依赖于带标签的3D数据集,用于训练一个模型以进行单一任务的监督学习。我们提出了OpenScene,一种替代方法,其中模型在CLIP特征空间中预测与文本和图像像素共同嵌入的3D场景点的密集特征。这种零样本方法实现了与任务无关的训练和开放词汇查询。例如,为了执行最先进的零样本 3D语义分割,它首先推断每个3D点的CLIP特征,然后根据与任意类别标签的嵌入的相似性对它们进行分类。更有趣的是,它实现了一系列以前从未实现过的开放词汇场景理解应用。例如,它允许用户输入任意文本查询,然后查看一个热图,指示场景的哪些部分匹配。我们的方法在复杂的3D场景中有效地识别对象、材料、功能、活动和房间类型,所有这些只使用一个模型进行训练,而无需任何带标签的3D数据。

1. Introduction

3D场景理解是计算机视觉中的一项基本任务。给定一个带有一组RGB图像的3D网格或点云,目标是推断每个3D点的语义、可视性、功能和物理属性。例如,给定图1所示的房子,我们想要预测哪些表面是风扇(语义)的一部分,由金属(材料)制成,在厨房(房间类型)内,人可以坐在哪里(可供性),人可以在哪里工作(功能),哪些表面是柔软的(物理性质)。这些问题的答案可以帮助机器人与场景进行智能交互,或者通过交互式查询和可视化帮助人们理解场景。

(图1:开放词

http://www.lryc.cn/news/310065.html

相关文章:

  • 数据结构 - Trie树(字符串统计、最大异或对)
  • 2. vue 工程创建
  • 2024绿色能源、城市规划与环境国际会议(ICGESCE 2024)
  • 0门槛电子画册制作
  • C语言----冒泡排序进阶
  • 【机器学习】实验5,AAAI 会议论文聚类分析
  • 安卓虚拟机ART和Dalvik
  • OPENWRT本地局域网模拟域名多IP
  • 今日学习总结2024.3.2
  • Java虚拟机(JVM)从入门到实战【上】
  • SaaS 电商设计 (九) 动态化且易扩展的实现购物车底部弹层(附:一套普适的线上功能切量的发布方案)
  • 数据结构——lesson5栈和队列详解
  • 使用rsync同步服务器和客户端的文件夹
  • 计算机网络|Socket
  • Python 使用 MyHDL库 实现FPGA板卡仿真验证
  • 解决SpringBoot集成WebSocket打包失败问题
  • i-vista五星测试标准
  • 初识Maven
  • 16 Educational Codeforces Round 142 (Rated for Div. 2)C. Min Max Sort(递归、思维、dp)
  • Mongodb安装配置
  • Linux常用操作命令大全
  • CVPR2023 | 提升图像去噪网络的泛化性,港科大上海AILab提出 MaskedDenoising,已开源!
  • [python] dict类型变量写在文件中
  • 设计循环队列
  • linux文件解压和压缩命令
  • 飞链云:让AI创造价值,让人类享受收益
  • [NSSCTF 2nd]MyJs
  • NLP-词向量、Word2vec
  • Java学习--学生管理系统(残破版)
  • 柯西矩阵介绍