当前位置: 首页 > news >正文

加利福尼亚大学|3D-LLM:将3D世界于大规模语言模型结合

来自加利福尼亚大学的3D-LLM项目团队提到:大型语言模型 (LLM) 和视觉语言模型 (VLM) 已被证明在多项任务上表现出色,例如常识推理。尽管这些模型非常强大,但它们并不以 3D 物理世界为基础,而 3D 物理世界涉及更丰富的概念,例如空间关系、可供性、物理、布局等。

在这项工作中,可以将 3D 世界注入大型语言模型中,并引入全新的 3D-LLM 系列。

具体来说,3D-LLM 可以将 3D 点云及其特征作为输入,并执行各种 3D 相关任务,包括字幕、密集字幕、3D 问答、任务分解、3D 基础、3D 辅助对话、导航等。


d17dc8ab3177e7d64a9407dfb3ccb409.jpeg

项目中提到:”使用我们设计的三种类型的提示机制,我们能够收集超过 30 万个涵盖这些任务的 3D 语言数据。为了有效地训练 3D-LLM,我们首先利用 3D 特征提取器从渲染的多视图图像中获取 3D 特征。然后,我们使用 2D VLM 作为骨干来训练 3D-LLM。通过引入 3D 定位机制,3D-LLM 可以更好地捕获 3D 空间信息。

ScanQA 上的实验表明,我们的模型大幅优于最先进的基线(例如,BLEU-1 分数超过最先进的分数 9%)。此外,对我们保留的 3D 字幕、任务组合和 3D 辅助对话数据集进行的实验表明,我们的模型优于 2D VLM。

定性示例还表明,我们的模型可以执行超出现有 LLM 和 VLM 范围的更多任务。项目页面: : 我们使用 2D VLM 作为骨干来训练 3D-LLM。通过引入 3D 定位机制,3D-LLM 可以更好地捕获 3D 空间信息。”

以下是3D-LLM的一些应用场景

a61ed0735ae570d784feaaceba2f8aad.jpeg

http://www.lryc.cn/news/98569.html

相关文章:

  • HCIA实验四
  • 常见的算法
  • Jetbrains 2023.2教程
  • OpenLayers入门,OpenLayers地图初始化时如何设置默认缩放级别、设置默认地图中心点、最大缩放级别和最小缩放级别以及默认坐标系
  • css实现步骤条中的横线
  • 【业务功能篇57】Springboot + Spring Security 权限管理 【上篇】
  • 云计算需求激增带来的基础设施挑战及解决方案
  • R语言中的函数23:zoo::rollmean, rollmax, rollmedian, rollsum等等
  • 数据结构—数组和广义表
  • 服务器负载均衡算法有哪些
  • 2023年深圳杯数学建模B题电子资源版权保护问题
  • Easyui中datagrid切换页码后,再次根据其他条件查询,重置为第一页,序号从1开始显示
  • 随笔03 考研笔记整理
  • 一次线上OOM问题的个人复盘
  • 【机器学习】基础知识点的汇总与总结!更新中
  • NLP杂记
  • 算法通过村第二关-链表白银笔记
  • 力扣题库刷题笔记75--颜色分类
  • 《面试1v1》如何提高远程用户的吞吐量
  • 论文笔记--Distilling the Knowledge in a Neural Network
  • Mac上安装sshfs
  • MQ公共特性介绍 (ActiveMQ, RabbitMQ, RocketMQ, Kafka对比)
  • 灵雀云Alauda MLOps 现已支持 Meta LLaMA 2 全系列模型
  • 技术方案模版
  • 【Linux命令200例】cut强大的文本处理工具
  • 《论文阅读》具有特殊Token和轮级注意力的层级对话理解 ICLR 2023
  • C# 定时器封装版
  • 前端学习——Vue (Day4)
  • 如果你是一个嵌入式面试官,你会问哪些问题?
  • 学习笔记十三:云服务器通过Kubeadm安装k8s1.25,供后续试验用