当前位置: 首页 > news >正文

每日学术速递4.4

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CL

1.Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

标题:Baize:一种对自聊天数据进行参数高效调优的开源聊天模型

作者:Canwen Xu, Daya Guo, Nan Duan, Julian McAuley

文章链接:https://arxiv.org/abs/2304.01196

项目代码:https://t.co/yRCl9Z4v0z

摘要:

        ChatGPT 等聊天模型已显示出令人印象深刻的功能,并已在众多领域迅速采用。然而,这些模型只能通过受限的 API 访问,这为该领域的新研究和进步创造了障碍。我们提出了一种管道,可以通过利用 ChatGPT 与自己进行对话来自动生成高质量的多轮聊天语料库。随后,我们采用参数有效调整来增强开源大型语言模型 LLaMA。由此产生的名为 Baize 的模型在带有护栏的多轮对话中展示了良好的性能,可以最大限度地减少潜在风险。

Subjects: cs.CV

2.ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model

标题:ReMoDiffuse:检索增强运动扩散模型 

作者:Mingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou

文章链接:https://arxiv.org/abs/2304.01116

项目代码:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

摘要:

        3D 人体运动生成对于创意产业至关重要。最近的进展依赖于具有领域知识的生成模型来生成文本驱动的动作,从而在捕捉常见动作方面取得了实质性进展。然而,在更多样化的运动上的表现仍然不尽如人意。在这项工作中,我们提出了 ReMoDiffuse,这是一种基于扩散模型的运动生成框架,它集成了检索机制以改进去噪过程。ReMoDiffuse 通过三个关键设计增强了文本驱动运动生成的普遍性和多样性:1) 混合检索在语义和运动学相似性方面从数据库中找到适当的参考。2) Semantic-Modulated Transformer 有选择地吸收检索知识,适应检索样本和目标运动序列之间的差异。3)条件混合在推理过程中更好地利用检索数据库,克服了无分类器指导中的尺度敏感性。大量实验表明,ReMoDiffuse 通过平衡文本运动一致性和运动质量,优于最先进的方法,尤其是对于更多样化的运动生成。

3.Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

标题:我们在哪里寻找用于体现智能的人工视觉皮层?

作者:Arjun Majumdar, Karmesh Yadav, Sergio Arnaud, Yecheng Jason Ma, Claire Chen, Sneha Silwal, Aryan Jain.etc

文章链接:https://arxiv.org/abs/2303.18240

项目代码:https://eai-vc.github.io/

摘要:

        我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响,我们将来自 7 个不同来源(超过 560 万张图像)的超过 4,000 小时的以自我为中心的视频与 ImageNet 相结合,使用掩码自动编码 (MAE) 在切片上训练不同大小的视觉转换器这个数据。与之前工作的推论相反,我们发现扩展数据集的大小和多样性并不能普遍提高性能(但平均而言)。我们最大的模型,名为 VC-1,平均优于所有先前的 PVR,但也没有普遍占据优势。最后,我们证明了 VC-1 的任务或特定领域的适应性带来了实质性的收益,VC-1(适应性的)比 CortexBench 中所有基准测试中最知名的结果具有竞争力或更优越的性能。这些模型需要 10,000 多个 GPU 小时来训练,并且可以在我们的网站上找到以供研究社区使用。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

http://www.lryc.cn/news/45798.html

相关文章:

  • ChatGPT将引发大量而普遍的网络安全隐患
  • 购买学生护眼台灯几瓦最好?有哪些推荐护眼灯
  • 什么是 SYN 攻击?如何避免 SYN 攻击?
  • 数据分析练习——学习一般分析步骤
  • Linux环境下挂载exfat格式U盘,以及安装exfat文件系统
  • 网格布局grid
  • 《扬帆优配》环境更优!这类资金,迎利好!
  • RK3568平台开发系列讲解(内存篇)内存管理的相关结构体
  • 如何理解二叉树与递归的关系
  • CSS 高级技巧
  • ToBeWritten之MIPS汇编基础铺垫
  • MySQL数据库对数据库表的创建和DML操作
  • 【PCB专题】PCB 阻焊层(solder mask)与助焊层(paste mask)有什么区别
  • ThreeJS-纹理旋转、重复(十一)
  • CSDN——Markdown编辑器——官方指导
  • DN-DETR调试记录
  • ASP消防网上考试系统设计与实现
  • MongoDB - 数据模型的设计模式
  • 3D格式转换工具助力Shapr3D公司产品实现了 “无障碍的用户体验”,可支持30多种格式转换!
  • 虚拟环境-----virtualenv和pipenv的安装和应用
  • awd pwn——LIEF学习
  • 亚商投资顾问 早餐FM/0330 6G发展持开放态度
  • cookie和session的区别
  • android 人脸考勤机 卡死原因
  • 安装k8s工具之三-kube-ansible
  • 《程序员面试金典(第6版)》面试题 08.09. 括号(回溯算法,特殊的排列问题,C++)
  • 大厂面试篇--2023软件测试八股文最全文档,有它直接大杀四方
  • LeetCode326_326. 3 的幂
  • Redis第九讲 Redis之Hash数据结构Dict字典哈希算法与hash存储过程
  • 2个月月活突破1亿,增速碾压抖音,出道即封神的ChatGPT,现在怎么样了?ChatGPT它会干掉测试?