当前位置：首页 > news >正文

手语检测识别

news 2025/7/14 13:15:06

论文：Real-Time Sign Language Detection using Human Pose Estimation

Github：https://github.com/google-research/google-research/tree/master/sign_language_detection

SLRTP 2020

手语识别任务包括手语检测（Sign language detection），手语识别（sign language recognition）2个部分。本文主要研究手语检测，目的就是判断当前视频的某一帧是否有做手语操作。文章首先使用openpose进行人体的关键点检测，然后基于前后帧的关键点归一化位移基于lstm进行2分类判断，即输出当前视频帧是否有做手语操作。最终文章在DGS Corpus(German Sign Language)数据集上达到了91%的准确性。

论文首先考虑使用光流方法区别每一帧图片的动作区别，但是这样会将背景等信息的变化也引入，这是不想看到的。所以决定使用关键点的归一化位移作为特征。

关键点的检测使用openpose实现，

Pose-all：全部的关键点，包括脸部，身体，手部

Pose-body：身体的关键点

Pose-hand：手部关键点

BBOX：身体框，脸部框，手部框

最终实验效果Pose-all的效果是最佳的，因此论文也采用Pose-all。

通过将每个身体部位的位移特征向量可视化，更可以直接看出不同身体部位的影响程度。

蓝色的线条代表不同身体部位的位移特征，主要的特征集中在手部，最下面的黄色线表示是否进行手语的ground_truth。

具体的身体不同部位的特征向量的计算方式如下，

其中fps表示视频的帧率，P表示关键点坐标，t表示t时刻，t-1表示t-1时刻，然后将t时刻的关键点坐标和t-1时刻的关键点坐标计算L2距离，然后再乘以fps，得到归一化的关键点位移特征，保证了该特征不会随着视频帧率不同而有差异。

得到相邻帧的关键点位移特征向量后，在该向量的基础上做一个包含64个隐藏层的一层单向lstm。然后再做一个卷积操作，将特征维度变化为2维，然后直接基于这2维特征进行是否有打手语的2分类就可以。

总结：

使用openpose进行关键点检测，然后基于关键点位移特征向量进行2分类操作。

http://www.lryc.cn/news/6699.html

相关文章：

android fwk模块之Sensor架构

安装less-loader5出现webpack版本不兼容

Java 网络编程

BEV学习记录

Webrtc Native C++切换音频输入源

裸辞5个月，面试了37家公司，终于找到理想工作了

Mybatis-plus@DS实现动态切换数据源应用

SpringBoot的创建和使用

居家电话客服宝典

开发方案设计

文件路径模块pathlib

spring cloud篇——什么是服务熔断？服务降级？服务限流？spring cloud有什么优势？

入门深度学习——基于全连接神经网络的手写数字识别案例（python代码实现）

预算砍砍砍，IT运维如何降本增效

10.Jenkins用tags的方式自动发布java应用

2023新华为OD机试题 - 相同数字的积木游戏 1（JavaScript）

重构之改善既有代码的设计(一)

Kotlin data class 数据类用法

随笔-老子不想牺牲了

三种查找Windows10环境变量的方法

STM32单片机DS18B20测温程序源代码

java日志查看工具finder介绍

手写现代前端框架diff算法-前端面试进阶

【半监督医学图像分割 2022 MICCAI】CLLE 论文翻译

vivo官网App模块化开发方案-ModularDevTool

Python基础-数据类型之数字类型

基于Web的6个完美3D图形WebGL库

界面组件DevExpress Reporting v22.2 - 增强的Web报表组件UI