当前位置：首页 > news >正文

每日学术速递4.4

news 2025/7/28 22:51:24

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CL

1.Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

标题：Baize：一种对自聊天数据进行参数高效调优的开源聊天模型

作者：Canwen Xu, Daya Guo, Nan Duan, Julian McAuley

文章链接：https://arxiv.org/abs/2304.01196

项目代码：https://t.co/yRCl9Z4v0z

摘要：

ChatGPT 等聊天模型已显示出令人印象深刻的功能，并已在众多领域迅速采用。然而，这些模型只能通过受限的 API 访问，这为该领域的新研究和进步创造了障碍。我们提出了一种管道，可以通过利用 ChatGPT 与自己进行对话来自动生成高质量的多轮聊天语料库。随后，我们采用参数有效调整来增强开源大型语言模型 LLaMA。由此产生的名为 Baize 的模型在带有护栏的多轮对话中展示了良好的性能，可以最大限度地减少潜在风险。

Subjects: cs.CV

2.ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model

标题：ReMoDiffuse：检索增强运动扩散模型

作者：Mingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou

文章链接：https://arxiv.org/abs/2304.01116

项目代码：https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

摘要：

3D 人体运动生成对于创意产业至关重要。最近的进展依赖于具有领域知识的生成模型来生成文本驱动的动作，从而在捕捉常见动作方面取得了实质性进展。然而，在更多样化的运动上的表现仍然不尽如人意。在这项工作中，我们提出了 ReMoDiffuse，这是一种基于扩散模型的运动生成框架，它集成了检索机制以改进去噪过程。ReMoDiffuse 通过三个关键设计增强了文本驱动运动生成的普遍性和多样性：1) 混合检索在语义和运动学相似性方面从数据库中找到适当的参考。2) Semantic-Modulated Transformer 有选择地吸收检索知识，适应检索样本和目标运动序列之间的差异。3）条件混合在推理过程中更好地利用检索数据库，克服了无分类器指导中的尺度敏感性。大量实验表明，ReMoDiffuse 通过平衡文本运动一致性和运动质量，优于最先进的方法，尤其是对于更多样化的运动生成。

3.Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

标题：我们在哪里寻找用于体现智能的人工视觉皮层？

作者：Arjun Majumdar, Karmesh Yadav, Sergio Arnaud, Yecheng Jason Ma, Claire Chen, Sneha Silwal, Aryan Jain.etc

文章链接：https://arxiv.org/abs/2303.18240

项目代码：https://eai-vc.github.io/

摘要：

我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先，我们策划了 CortexBench，它由 17 项不同的任务组成，涵盖运动、导航、灵巧和移动操作。接下来，我们系统地评估现有的 PVR，发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响，我们将来自 7 个不同来源（超过 560 万张图像）的超过 4,000 小时的以自我为中心的视频与 ImageNet 相结合，使用掩码自动编码 (MAE) 在切片上训练不同大小的视觉转换器这个数据。与之前工作的推论相反，我们发现扩展数据集的大小和多样性并不能普遍提高性能（但平均而言）。我们最大的模型，名为 VC-1，平均优于所有先前的 PVR，但也没有普遍占据优势。最后，我们证明了 VC-1 的任务或特定领域的适应性带来了实质性的收益，VC-1（适应性的）比 CortexBench 中所有基准测试中最知名的结果具有竞争力或更优越的性能。这些模型需要 10,000 多个 GPU 小时来训练，并且可以在我们的网站上找到以供研究社区使用。

更多Ai资讯：公主号AiCharm
在这里插入图片描述