当前位置: 首页 > news >正文

Audio2Face的工作原理

预加载一个3D数字人物模型(Digital Mark),该模型可以通过音频驱动进行面部动画。
用户上传音频文件作为输入。
将音频输入馈送到预训练的深度神经网络中。

Audio2Face加载预制的3d人头mesh
3D数字人物面部模型由大量顶点组成,每个顶点都有xyz坐标。
深度神经网络输入音频特征,输出是这些顶点在每个时刻的(载预制的3d人头)位移量(delta x, delta y, delta z)。
将网络输出的顶点位移量应用到人物面部模型的原始顶点位置上,就可以得到每个时刻面部形状变化后的新顶点坐标。

这样预制的人头mesh就被声音信号驱动了。

Audio2Face是如何实现retarget的?

Audio2Face就可以使用retarget技术将这些表情映射到目标角色上。它会自动分析源角色和目标角色的面部结构和特征,找出它们之间的对应关系,然后将源角色的面部表情映射到目标角色上。这样,目标角色就能够呈现出与源角色相同的面部表情。

需要注意的是,retarget技术的效果取决于源角色和目标角色之间的相似程度。如果它们之间的面部结构和特征差异较大,那么retarget后的效果可能会出现一些失真或不准确的情况。

http://www.lryc.cn/news/180621.html

相关文章:

  • 【面试题】2023前端面试真题之JS篇
  • Mysql 分布式序列算法
  • Windows/Linux双系统卸载Ubuntu
  • asp.net core mvc 视图组件viewComponents
  • 如何保持终身学习
  • 【RV1103】RTL8723bs (SD卡形状模块)驱动开发
  • LeetCode 周赛上分之旅 #49 再探内向基环树
  • kubernetes-v1.23.3 部署 kafka_2.12-2.3.0
  • 位置编码器
  • Lua多脚本执行
  • Spirng Cloud Alibaba Nacos注册中心的使用 (环境隔离、服务分级存储模型、权重配置、临时实例与持久实例)
  • 26663-2011 大型液压安全联轴器 课堂随笔
  • ChatGPT架构师:语言大模型的多模态能力、幻觉与研究经验
  • 二、VXLAN BGP EVPN基本原理
  • Evil.js
  • 使用sqlmap的 ua注入
  • 华为云云耀云服务器L实例评测 | 实例评测使用之体验评测:华为云云耀云服务器管理、控制、访问评测
  • resultmap
  • 宽带光纤接入网中影响家宽业务质量的常见原因有哪些
  • C++ - 封装 unordered_set 和 unordered_map - 哈希桶的迭代器实现
  • gradle中主模块/子模块渠道对应关系通过配置实现
  • 28383-2012 卷筒料凹版印刷机 学习笔记
  • stable diffusion学习笔记【2023-10-2】
  • flink选择slot
  • 世界前沿技术发展报告2023《世界信息技术发展报告》(六)网络与通信技术
  • spark SQL 任务参数调优1
  • 算法练习2——移除元素
  • 动态规划算法(2)--最大子段和与最长公共子序列
  • CentOS上网卡不显示的问题
  • localStorage实现历史记录搜索功能