当前位置: 首页 > article >正文

中山大学美团港科大提出首个音频驱动多人对话视频生成MultiTalk,输入一个音频和提示,即可生成对应唇部、音频交互视频。

由中山大学、美团、香港科技大学联合提出的MultiTalk是一个用于音频驱动的多人对话视频生成的新框架。给定一个多流音频输入和一个提示,MultiTalk 会生成一个包含提示所对应的交互的视频,其唇部动作与音频保持一致。

相关链接

  • 论文:https://arxiv.org/pdf/2505.22647

  • 主页:https://meigen-ai.github.io/multi-talk/

  • 代码:https://github.com/MeiGen-AI/MultiTalk

论文介绍

音频驱动的人体动画方法,例如说话头部和说话身体生成,在生成同步面部动作和引人入胜的视觉质量视频方面取得了显著进展。然而,现有方法主要侧重于单人动画,难以处理多流音频输入,存在音频与人物绑定不正确的问题。此外,它们在指令遵循能力方面也存在局限性。

为了解决这一问题,本文提出了一项新的任务:多人对话视频生成,并引入了一个新框架 MultiTalk 来应对多人生成过程中的挑战。具体来说,对于音频注入,我们研究了多种方案,并提出了标签旋转位置嵌入 (L-RoPE) 方法来解决音频和人物绑定问题。此外,在训练过程中,我们观察到部分参数训练和多任务训练对于保持基础模型的指令遵循能力至关重要。MultiTalk 在多个数据集(包括说话头部、说话身体和多人数据集)上取得了优于其他方法的性能,证明了我们方法强大的生成能力。

方法

论文提出了一个音频驱动的视频生成框架 MultiTalk。该框架新增了一个音频交叉注意力层,以支持音频条件。为了实现多人对话视频生成,论文提出了一种用于多流音频注入的标签旋转位置嵌入 (L-RoPE)。

http://www.lryc.cn/news/2404774.html

相关文章:

  • Maven的配置与运行
  • MySQL 迁移至 Docker ,删除本地 mysql
  • redis分片集群架构
  • 关于物联网的基础知识(一)
  • 浏览器后台服务 vs 在线教育:QPS、并发模型与架构剖析
  • 电脑商城--用户注册登录
  • Riverpod与GetX的优缺点对比
  • Three.js怎么工作的?
  • LangChain面试内容整理-知识点1:LangChain架构与核心理念
  • 双面沉金线路板制作流程解析:高可靠性PCB的核心工艺
  • 什么是梯度磁场
  • 从零开始的python学习(七)P102+P103+P104+P105+P106+P107
  • Linux--进程的调度
  • Hadolint:Dockerfile 语法检查与最佳实践验证的终极工具
  • Python爬虫实战:研究Hyper 相关技术
  • 基于langchain的简单RAG的实现
  • VmWare Ubuntu22.04 搭建DPDK 20.11.1
  • selenium-自动更新谷歌浏览器驱动
  • 34、协程
  • Apache POI操作Excel详解
  • Docker容器部署elasticsearch8.*与Kibana8.*版本使用filebeat采集日志
  • OpenCV CUDA模块图像处理------双边滤波的GPU版本函数bilateralFilter()
  • 华为手机开机卡在Huawei界面不动怎么办?
  • 并行硬件环境及并行编程
  • ORM框架(SQLAlchemy 与 Tortoise )
  • go语言map扩容
  • 安全访问家中 Linux 服务器的远程方案 —— 专为单用户场景设计
  • 前端开发三剑客:HTML5+CSS3+ES6
  • [Java 基础]Java 中的关键字
  • 5.3 Spring Boot整合JPA