当前位置: 首页 > news >正文

每日学术速递3.10

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理   

Subjects: cs.RO

1.Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

 标题:扩散策略:通过动作扩散进行视觉运动策略学习

作者:Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, Shuran Song

文章链接:https://arxiv.org/abs/2303.04137

项目代码:https://diffusion-policy.cs.columbia.edu/

摘要:

        本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。我们发现扩散公式在用于机器人策略时具有强大的优势,包括优雅地处理多模态动作分布、适用于高维动作空间以及表现出令人印象深刻的训练稳定性。为了充分释放物理机器人视觉运动策略学习扩散模型的潜力,本文提出了一系列关键技术贡献,包括后退视界控制、视觉调节和时间序列扩散变换器的结合。我们希望这项工作将有助于激发能够利用扩散模型强大的生成建模能力的新一代策略学习技术。代码、数据和培训细节将公开。

Subjects: cs.CL

2.Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling

标题:用你自己的声音说外语:跨语言神经编解码器语言建模

作者:Ziqiang Zhang, Long Zhou, Chengyi Wang, Sanyuan Chen, Yu Wu, Shujie Liu, Zhuo Chen

文章链接:https://arxiv.org/abs/2303.03926

项目代码:https://vallex-demo.github.io/

摘要:

        我们提出了一种用于跨语言语音合成的跨语言神经编解码器语言模型 VALL-E X。具体来说,我们扩展 VALL-E 并训练多语言条件编解码器语言模型,以使用源语言语音和目标语言文本作为提示来预测目标语言语音的声学标记序列。VALL-E X 继承了强大的上下文学习能力,可应用于零样本跨语言文本到语音合成和零样本语音到语音翻译任务。实验结果表明,它可以仅通过源语言中的一个语音话语作为提示来生成目标语言的高质量语音,同时保留看不见的说话者的声音、情感和声学环境。此外,VALL-E X有效缓解了外国口音问题,可以通过语言ID来控制。

Subjects: cs.CV

3.Nerflets: Local Radiance Fields for Efficient Structure-Aware 3D Scene Representation from 2D Supervisio(CVPR 2023)

标题:Nerflets:来自 2D Supervisio 的高效结构感知 3D 场景表示的局部辐射场

作者:Xiaoshuai Zhang, Abhijit Kundu, Thomas Funkhouser, Leonidas Guibas, Hao Su, Kyle Genova

文章链接:https://arxiv.org/abs/2303.03361

摘要:

        我们解决了图像中高效且结构感知的 3D 场景表示问题。Nerflets 是我们的主要贡献——一组共同代表场景的局部神经辐射场。每个 nerflet 都保持自己的空间位置、方向和范围,在这些位置、方向和范围内,它有助于全景、密度和辐射重建。通过仅利用光度和推断的全景图像监督,我们可以直接联合优化一组 nerflet 的参数,从而形成场景的分解表示,其中每个对象实例由一组 nerflet 表示。在室内和室外环境的实验中,我们发现 nerflet:(1) 比传统的全局 NeRF 更有效地拟合和近似场景,(2) 允许从任意视图提取全景和光度渲染,以及 (3) 启用任务稀有用于 NeRF,例如 3D 全景分割和交互式编辑。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

http://www.lryc.cn/news/36832.html

相关文章:

  • [C/C++]_[初级]_[声明和使用字符串常量和字节常量]
  • 解Bug之路-Nginx 502 Bad Gateway
  • 目标检测 pytorch复现R-CNN目标检测项目
  • 荧光染料IR-825 NHS,IR825 NHS ester,IR825 SE,IR-825 活性酯
  • 利用Postman的简单运用解决小问题的过程
  • 【C语言】8道经典指针笔试题(深度解剖)
  • 操作系统内核与安全分析课程笔记【2】进程管理与调度
  • 看完书上的栈不过瘾,为什么不动手试试呢?
  • AbstractQueuedSynchronizer从入门到踹门
  • 【项目实战】手把手教你Dubbo微服务架构中整合熔断限流组件Sentinel
  • 图像主题颜色提取(Median cut)
  • Python 分支结构
  • 【C++知识点】文件操作
  • VBA小模板,跨表统计的2种写法
  • 部署问题 | 百度LAC安装部署清单
  • 提高办公效率的免费网站有哪些
  • 前端开发者需要掌握的具体内容和步骤
  • 杨校老师课堂之基于File类的文件管理器
  • java面试算法汇总-数组
  • Docker-Mysql主从复制
  • (模拟)1241. 外卖店优先级
  • Linux进程学习【进程地址】
  • 系统调用——文件操作相关函数
  • 做互联网自媒体创业的月薪收入真的能过万吗?
  • Kubernetes (k8s) 污点(Taint)、容忍介绍、示例
  • 多团队协作构建可观测性
  • 100种思维模型之认知资源思维模型-030
  • c/cpp - 多线程/进程 基础
  • 第55章 头像图片的前端渲染显示
  • vue2 使用 cesium 【第二篇-相机视角移动+添加模型】