当前位置: 首页 > news >正文

【Two Stream network (Tsn)】(二) 阅读笔记

贡献

将深度神经网络应用于视频动作识别的难点,是如何同时利用好静止图像上的 appearance information以及物体之间的运动信息motion information。本文主要有三点贡献:

1.提出了一种融合时间流和空间流的双流网络;
2.证明了直接在光流上训练的网络,即使训练集很小,仍能获得很好的效果;
3.在两个动作识别数据集上使用多任务学习(multi-task learning),同时训练一个backbone,可以增加训练数据量,提高模型性能。

简介

所谓two-stream是指空间stream和时间stream,视频可以分成空间与时间两个部分,空间部分指独立帧的表面信息,关于物体、场景等;而时间部分信息指帧间的光流,携带着帧之间的运动信息。相应的,所提出的网络结构由两个深度网络组成,分别处理时间与空间的维度。

网络结构

结构如下图所示:
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • Spatio Stream Convet:空间流卷积网络,输入是单个帧画面(静态图片),主要学习场景信息。因为是处理静态图片,所以可以使用预训练的模型来做,更容易优化。最后根据网络输出的特征得出一个logist(假设模型是在UCF-101数据集上做测试,数据集共101个类,logist是softmax之后的类别概率,那么时间流网络的输出就是一个1×101维的向量)。
  • temporal stream convet:时间流卷积网络(光流网络),输入是光流图像,通过多帧画面的光流位移来获取画面中物体的运动信息,最后也根据网络输出的特征得出一个logist。
    • 光流输入显式地描述了视频帧之间的运动,而不需要CNN网络去隐式地估计运动信息,所以使得识别更加容易。加入时间流卷积网络之后,模型精度大大提升。
    • 直接以光流做输入来预测动作,而不用CNN本身去学动作信息,大大简化了学习过程。

融合有两种方式:

  • late fusion融合:两个logist加权平均得到最终分类结果(比如两个softmax向量取平均,再做一个argmax操作)。
  • 将softmax分数作为特征再训练一个SVM分类器。
http://www.lryc.cn/news/157853.html

相关文章:

  • 记一次语音播报功能
  • Unity设置TextMeshPro文本超出范围显示...
  • Java中级面试题记录(三)
  • spring高级源码50讲-1-8(spring容器与bean)
  • 微服务06-Dockerfile自定义镜像+DockerCompose部署多个镜像
  • 2023高教社杯 国赛数学建模A题思路 - 定日镜场的优化设计
  • Qt +VTK+Cmake 编译和环境配置(第二篇,中级篇, 重新编译)
  • 图的学习,深度和广度遍历
  • ChatGPT驱动下,网站AI客服该如何进步和创新
  • Linux系统中实现便捷运维管理和远程访问的1Panel部署方法解析
  • 数学建模黄河水沙监测数据分析
  • Unity ProBuilder(自己创建斜面、拐角)
  • 以气象行业为例,浅谈在ToB/ToG行业中如何做好UI设计
  • shiny根据数据的长度设置多个色板
  • 2023高教社杯 国赛数学建模D题思路 - 圈养湖羊的空间利用率
  • 网络是如何进行通信
  • vue3 watch watchEffect
  • lintcode 1410 · 矩阵注水【BFS 中等 vip】
  • 软件架构设计(十) 架构评估(复审)-方法论
  • SQL注入案例
  • lv3 嵌入式开发-5 linux shell命令(进程管理、用户管理)
  • 学习Bootstrap 5的第六天
  • 攻防世界-WEB-NewsCenter
  • vue router 路由跳转获取不到参数
  • 将 Llama2 中文模型接入 FastGPT,再将 FastGPT 接入任意 GPT 套壳应用,真刺激!
  • Ubuntu之apt-get系列--apt-get安装软件的方法/教程
  • redux的理解
  • 【Java】Java 多线程的应用场景
  • Mysql--技术文档--索引-《索引为什么查找数据快?》-超底层详细说明索引
  • jmeter 接口快速创建