当前位置：首页 > news >正文

NLPR、SenseTime 和 NTU 加速自动视频纵向编辑

news 2025/9/17 3:06:50

视频人像编辑技术已经在电视、视频和电影制作中得到了应用，并有望在不断发展的网真场景中发挥关键作用。最先进的方法已经可以逼真地将同源音频合成为视频。现在，来自北京模式识别国家实验室（NLPR）、商汤科技研究和南洋理工大学的研究人员通过一个新的框架将这项技术向前推进了一步，该框架可以实现完全任意的音频 - 视频翻译。

在开发该项目时，研究人员面临着许多挑战：

1、如何在没有源视频的情况下执行从音频到视频的直接映射

2、如何概括同一音频剪辑上不同说话人的面部表情

3、如何保持视频背景的完整性和清晰度，防止扬声器头部移动引起的遮挡等

2023-08-15T03:17:20.png

系统架构概述

为了增加合成视频的真实感，研究人员结合了许多不同的模型和网络。在视频方面，他们应用了参数化3D人脸模型，从每个肖像帧中提取人脸几何形状、姿势和表情参数。在音频方面，他们使用音频到表情的翻译网络来识别特定的音频特征，并将其与面部表情相匹配。

研究人员还设计了一个音频ID去除网络，以降低不同肖像的差异化。然后使用重组的 3D 面部网格修改源和目标参数，创建蒙版肖像。最后，研究人员应用了神经视频渲染网络来实现清晰和不间断的背景场景。

2023-08-15T03:17:42.png

音频到表达网络架构

一对多和多对一平移测试结果表明，所提系统的泛化能力比现有方法产生更自然的外观和运动。

2023-08-15T03:18:02.png

与四种主要的最新方法进行比较。

本文的第一作者是Linsen Song，他是NLPR研究员何然和前商汤科技实习生指导下的研究生。可以在项目页面上查看综合结果的视频演示和解释。

相关论文《Everyone’s Talkin：Let Me Talk as You Want》发表在arXiv上。

http://www.lryc.cn/news/130385.html

相关文章：

layui下拉框select 弹出层在最外层

fnn手动实现和nn实现(包括3种激活函数、隐藏层)

Lua + mysql 实战代码

智慧工地监管云平台源码建筑施工一体化信息管理系统源码

三.net core 自动化发布到docker （创建一个dotnet工程发布）

【Spring Cloud 八】Spring Cloud Gateway网关

Android JNI传递CallBack接口并接收回调

机器学习：特征工程之特征预处理

高级艺术二维码制作教程

每日一题leetcode--使循环数组所有元素相等的最少秒数

tauri-react：快速开发跨平台软件的架子，支持自定义头部UI拖拽移动和窗口阴影效果

k8s 自身原理之 Service

arduino Xiao ESP32C3 oled0.96 下雪花

ElasticSearch索引库、文档、RestClient操作

Effective Java 案例分享（九）

SpringBoot复习：（56）使用@Transactional注解标记的方法的执行流程

JVM——引言+JVM内存结构

open cv学习（十）图形检测

【C语言】字符函数和字符串函数

前馈神经网络正则化例子

spring的核心技术---bean的生命周期加案例分析详细易懂

【Maven教程】（一）入门介绍篇：Maven基础概念与其他构建工具：理解构建过程与Maven的多重作用，以及与敏捷开发的关系 ~

今天，谷歌Chrome浏览器部署抗量子密码

SUMO traci接口控制电动车前往充电站充电

现代CSS中的换行布局技术

简单理解Python中的深拷贝与浅拷贝

C++之std::pair＜uint64_t, size_t＞应用实例(一百七十七)

前端打开后端返回的HTML格式的数据

How to deal with document-oriented data

Http 状态码汇总