当前位置: 首页 > news >正文

Kaggle赛题解析:Google手语识别

文章目录

  • 一、比赛前言信息
  • 二、比赛背景
  • 三、比赛任务
  • 四、评价指标
  • 五、数据描述
  • 六、解题思路

一、比赛前言信息

比赛名称:Google - Isolated Sign Language Recognition

中文名称:帮助用户从PopSign游戏学习美国手语

比赛链接:https://www.kaggle.com/competitions/asl-signs/

比赛类型:时序视频分类、手语识别

二、比赛背景

在美国,每天有 33 名婴儿出生时患有永久性听力损失。其中大约 90% 的父母是听力正常的人,其中许多人可能不懂美国手语。

如果没有手语,聋哑婴儿有患上语言剥夺综合症的风险。这种综合症的特点是在语言学习的关键时期无法获得自然发生的语言习得。它会对他们生活的不同方面造成严重影响,例如人际关系、教育和就业。

学习美国手语对说英语的人来说和学习日语一样困难。这需要很多父母没有的时间和资源。他们想学习手语,但是当他们为了维持生计而长时间工作时,这很难。即使他们找到了上课的时间和金钱,上课的地方也往往很远。

PopSign 是一款智能手机游戏应用程序,它使学习美国手语变得有趣、互动且易于访问。玩家将 ASL 标志的视频与包含书面英语单词的泡泡相匹配以弹出它们。

PopSign 旨在帮助有失聪儿童的父母学习美国手语,但它对任何想学习手语词汇的人开放。通过添加本次比赛的手语识别器,PopSign 玩家将能够在他们想要射出的泡泡类型上签名,让玩家有机会自己练习手语,而不仅仅是观看其他人手语的视频。

三、比赛任务

本次比赛的目标是对美国手语 (ASL) 标志进行分类。选手需要创建一个 TensorFlow Lite 模型,使用 MediaPipe 搭建解决方案进行训练。

四、评价指标

本次比赛的评估指标是简单的分类准确率。选手需要提交一个 TensorFlow Lite 模型文件。该模型必须将一个或多个地标帧作为输入,并返回一个浮点向量(每个标志类别的预测概率)作为输出。

您的模型必须打包到 submission.zip 文件中并与 TensorFlow Lite Runtime v2.9.1 兼容。

欢迎您使用您选择的框架训练您的模型,只要您在提交之前将模型检查点转换为 tflite 格式即可。

您的模型还必须需要少于 40 MB 的内存,并且每个视频执行推理的延迟要少于 100 毫秒。

五、数据描述

train_landmark_files/[participant_id]/[sequence_id].parquet:使用 MediaPipe 整体模型从原始视频中提取地标。并非所有的框架都必须有可见的手或模型可以检测到的手。

  • frame - 原始视频中的帧数。
  • row_id - 行的唯一标识符。
  • type - 地标的类型。[‘face’, ‘left_hand’, ‘pose’, ‘right_hand’] 之一。
  • type - 地标的类型。[‘face’, ‘left_hand’, ‘pose’, ‘right_hand’] 之一。
  • [x/y/z] - 地标的归一化空间坐标。这些是将提供给您提交的模型进行推理的唯一列。MediaPipe 模型没有经过充分训练来预测深度,因此您可能希望忽略 z 值。

train.csv:

  • path - 地标文件的路径。
  • participant_id - 数据贡献者的唯一标识符。
  • sequence_id - 界标序列的唯一标识符。
  • sign - 地标序列的标签。

六、解题思路

赛题是一个比较典型的时序分类任务,但需要考虑模型的速度和精度。从数据类型来看,CNN模型可能是更容易训练的模型。

  • 训练一个深度学习模型
  • 调整模型精度
  • 蒸馏、量化增加模型速度
  • 转换为tflite格式
http://www.lryc.cn/news/37301.html

相关文章:

  • 什么是ChatGPT?
  • 深入理解Zookeeper的ZAB协议
  • opencv-图像几何处理
  • [前端笔记030]vue之hello、数据绑定、MVVM、数据代理、事件处理、计算属性和监视属性
  • 每天学一点之注解、元注解
  • STA环境
  • 嵌入式系统实践 12 ——基于ARM汇编 Keil5 MSP432 P401R开发板
  • 【密码学篇】密码行业标准汇总(GM)
  • 桌面文件删除后没有在回收站原因和恢复方法
  • 什么是业务运营?关键组成部分有哪些?
  • 腾讯云新用户怎么配置服务器的方法教程
  • windows 11系统,通过ip地址远程连接连接ubuntu 22.04系统(共同局域网下,另一台主机不需要联网)
  • 头脑风暴(一):Controller层前端传参接收;在Service层实现类中?为何要build相关构建器?添加套餐业务分析
  • vue-cropper 拖动图片和截图框
  • [Linux基础]history相关的环境变量设置
  • 怎么给电脑分盘与合并磁盘?教你三招
  • HCIP-5.4OSPF路由聚合、缺省路由
  • 【数据结构】——树与二叉树
  • 等离子纳秒高压脉冲电源维修HVP-20 P
  • JavaScript内改变this指向
  • Cobalt Strike---(2)
  • docker的命令使用和相关例子
  • 23模式--代理模式
  • 【Linux】信号的产生、保存、捕捉处理 (四种信号产生、核心存储、用户态与内核态、信号集及其操作函数)
  • redis经典五种数据类型及底层实现
  • 三十而立却被裁,打工人要如何应对职场危机?
  • java面试-java基础
  • Kafka 消息不丢失
  • ASEMI高压MOS管10N65参数,10N65规格,10N65封装
  • LeetCode-416. 分割等和子集