当前位置: 首页 > news >正文

手语检测识别

论文:Real-Time Sign Language Detection using Human Pose Estimation

Github:https://github.com/google-research/google-research/tree/master/sign_language_detection

SLRTP 2020

手语识别任务包括手语检测(Sign language detection),手语识别(sign language recognition)2个部分。本文主要研究手语检测,目的就是判断当前视频的某一帧是否有做手语操作。文章首先使用openpose进行人体的关键点检测,然后基于前后帧的关键点归一化位移基于lstm进行2分类判断,即输出当前视频帧是否有做手语操作。最终文章在DGS Corpus(German Sign Language)数据集上达到了91%的准确性。

论文首先考虑使用光流方法区别每一帧图片的动作区别,但是这样会将背景等信息的变化也引入,这是不想看到的。所以决定使用关键点的归一化位移作为特征。

关键点的检测使用openpose实现,

Pose-all:全部的关键点,包括脸部,身体,手部

Pose-body:身体的关键点

Pose-hand:手部关键点

BBOX:身体框,脸部框,手部框

最终实验效果Pose-all的效果是最佳的,因此论文也采用Pose-all。

通过将每个身体部位的位移特征向量可视化,更可以直接看出不同身体部位的影响程度。

蓝色的线条代表不同身体部位的位移特征,主要的特征集中在手部,最下面的黄色线表示是否进行手语的ground_truth。

具体的身体不同部位的特征向量的计算方式如下,

其中fps表示视频的帧率,P表示关键点坐标,t表示t时刻,t-1表示t-1时刻,然后将t时刻的关键点坐标和t-1时刻的关键点坐标计算L2距离,然后再乘以fps,得到归一化的关键点位移特征,保证了该特征不会随着视频帧率不同而有差异。

得到相邻帧的关键点位移特征向量后,在该向量的基础上做一个包含64个隐藏层的一层单向lstm。然后再做一个卷积操作,将特征维度变化为2维,然后直接基于这2维特征进行是否有打手语的2分类就可以。

总结:

使用openpose进行关键点检测,然后基于关键点位移特征向量进行2分类操作。

 

http://www.lryc.cn/news/6699.html

相关文章:

  • android fwk模块之Sensor架构
  • 安装less-loader5出现webpack版本不兼容
  • Java 网络编程
  • BEV学习记录
  • Webrtc Native C++切换音频输入源
  • 裸辞5个月,面试了37家公司,终于找到理想工作了
  • Mybatis-plus@DS实现动态切换数据源应用
  • SpringBoot的创建和使用
  • 居家电话客服宝典
  • 开发方案设计
  • 文件路径模块pathlib
  • spring cloud篇——什么是服务熔断?服务降级?服务限流?spring cloud有什么优势?
  • Tomcat构建
  • 入门深度学习——基于全连接神经网络的手写数字识别案例(python代码实现)
  • 预算砍砍砍,IT运维如何降本增效
  • 10.Jenkins用tags的方式自动发布java应用
  • 2023新华为OD机试题 - 相同数字的积木游戏 1(JavaScript)
  • 重构之改善既有代码的设计(一)
  • Kotlin data class 数据类用法
  • 随笔-老子不想牺牲了
  • 三种查找Windows10环境变量的方法
  • STM32单片机DS18B20测温程序源代码
  • java日志查看工具finder介绍
  • 手写现代前端框架diff算法-前端面试进阶
  • 【半监督医学图像分割 2022 MICCAI】CLLE 论文翻译
  • vivo官网App模块化开发方案-ModularDevTool
  • Python基础-数据类型之数字类型
  • 基于Web的6个完美3D图形WebGL库
  • 界面组件DevExpress Reporting v22.2 - 增强的Web报表组件UI
  • 初学vector