当前位置: 首页 > news >正文

图片速览 PoseGPT:基于量化的 3D 人体运动生成和预测(VQVAE)

papercode
https://arxiv.org/pdf/2210.10542.pdfhttps://europe.naverlabs.com/research/computer-vision/posegpt/

方法 将动作压缩到离散空间。使用GPT类的模型预测未来动作的离散索引。使用解码器解码动作得到输出。
效果 提出的方法在HumanAct12(一个标准但小规模的数据集)以及BABEL(最近的大规模MoCap数据集)和GRAB(人-物体交互数据集)上取得了最先进的结果。

方法总览

        PoseGPT 生成一个人体运动序列,以动作标签、持续时间 T T T 为条件(观察到的过去人类运动为可选条件)。类似GPT[54]的模型G按顺序预测离散的潜在指数,这些指数使用解码器D解码为生成的人体运动。当也对过去的人体运动进行调节时,输入的人体运动用 E 编码,并使用 q ( ⋅ ) q(\cdot) q() 量化到离散潜在空间中。

在这里插入图片描述

实现细节

VQVAE

        潜在空间的离散性和压缩性使类似 GPT 的模型能够专注于长距离信号,因为它消除了输入信号中的低级冗余。编码器 E 将人体运动 p 映射到潜在表示 z ^ \hat z z^,然后使用码本 Z \mathcal Z Z 对其进行量化。解码器 D 从量化的潜在序列 z q z_q zq 重建人体运动 p ^ \hat p p^
在这里插入图片描述

Attention

        屏蔽注意力图 :在编码器中屏蔽注意力图会导致模型可以根据过去的观察结果进行调节。在解码器中屏蔽注意力图也允许模型进行在线预测。
在这里插入图片描述

未来运动预测

        在离散潜在空间中,自回归转换器模型 G 根据前一个潜在指数预测下一个潜在指数。我们以人体动作标签、序列持续时间和观察到的运动为条件。
在这里插入图片描述

结果

在这里插入图片描述

http://www.lryc.cn/news/262786.html

相关文章:

  • Java对象结构
  • 基于redis的分布式锁实现方案
  • 基于JAVA+SpringBoot的线上智能问诊就医平台
  • adb: error: cannot create file/directory ‘d:/1.png‘: No such file or directory
  • Pelee: A Real-Time Object Detection System on Mobile Devices(CVPR 2019)
  • 分布式理论 | RPC | Spring Boot 整合 Dubbo + ZooKeeper
  • 局域网其他pc如何访问宿主机虚拟机IP?
  • U8 语法制导翻译技术
  • 剑指offer A + B
  • gitlab(gitlab-ce)下载,离线安装
  • Jmeter接口测试断言
  • Temu、Shein、OZON测评自养号,IP和指纹浏览器的优缺点分析
  • 亚信科技AntDB数据库——深入了解AntDB-M元数据锁的相关概念
  • yolov5 deepsort-船舶目标检测+目标跟踪+单目测距+速度测量
  • Wireshark与其他工具的整合
  • DDD架构实践
  • Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
  • 认识缓存,一文读懂Cookie,Session缓存机制。
  • 关于react native项目中使用react-native-wechat-lib@3.0.4
  • 【LeetCode刷题笔记(8-1)】【Python】【接雨水】【动态规划】【困难】
  • pycharm通过ssh连接远程服务器的docker容器进行运行和调试代码
  • Chrome2023新版收藏栏UI改回旧版
  • WebSocket与JavaScript:实现实时获取位置
  • 一种解决Qt5发布release文件引发的无法定位程序输入点错误的方法
  • UE4/UE5 日志插件(基于spdlog)
  • 微信小程序ios中非cover组件点击重复触发地图tap事件
  • 7.26 SpringBoot项目实战【还书】
  • Golang中使用errors返回调用堆栈信息
  • Web前端-HTML(常用标签)
  • 一 OpenCV中的数据类型