当前位置：首页 > news >正文

双流网络论文精读笔记

news 2025/9/11 21:01:10

精读视频：双流网络论文逐段精读【论文精读】_哔哩哔哩_bilibili

Two-Stream Convolutional Networks for Action Recognition in Videos

传统的神经网络难以学习到物体的运动信息，双流网络则通过光流将物体运动信息抽取出来再传递给神经网络给模型提供先验信息，再让网络学习动作和输出的映射关系

其他论文：deep video

Spatial stream ConvNet：空间流神经网络，关注 appearance 信息，输入是单帧图片输出分类概率，从静止图像中做动作识别是图像分类任务，可以预训练
Temporal stream ConvNet：时间流神经网络，关注 motion information，输入一系列光流(optical flow)图片输出也是分类概率
两者分类概率取加权平均得到最终预测

光流网络

光流

每两张图片得到一张光流四张连续帧得到三个光流，分为水平运动和垂直运动的两维光流，每个像素点都有对应光流值

两种叠加光流图片输入到神经网络的方法

方法一：左边的图，直接堆叠，在每张图同样位置的像素点处询问该点的运动轨迹

方法二：根据像素点的轨迹，下一帧运动到另一点再从那一点继续

Bi-directional optical flow 双向光流

上述两种方法都是前向的光流计算，而光流反过来计算也是可以的

作者把一个视频的前半段用于计算前向光流，后半段计算反向光流

光流网络的输入

空间流网络：输入 channel = 3，RGB三通道

时间流网络：L+1 张连续单帧图像得到 L 张光流图，输入的 channel 数是 2L，光流图的叠加是先叠加水平、后叠加竖直方向的光流位移

实现细节

测试部分

不论视频多长，等间隔抽取 25 帧
空间流：对每一帧，取四角和中心得到5张图，将该帧翻转过来后同样操作，共计得到10张；25帧则共250张图，都经过空间流神经网络得到结果
时间流：对每一帧都往后取11帧图抽取得到10张光流图

如何预处理和计算光流

每一帧、每个像素点都有光流值，处理需要的时间空间都太大，所以进行压缩：把光流值压缩到0~255且变成整数，并把光流存成JPEG图片形式光流图变小了

http://www.lryc.cn/news/248739.html

相关文章：

机器人与3D视觉 Robotics Toolbox Python 一安装 Robotics Toolbox Python

JS之Object.defineProperty方法

卷积神经网络（CNN）注意力检测

4. 权限,特权

云原生系列Go语言篇-泛型Part 2

借助ETL快速查询金蝶云星空表单信息

基于深度学习的驾驶员状态监测预警系统（正文）

读书笔记之《价值》张磊

【shell】文本三剑客之sed详解

Centos7 制作Openssh9.5 RPM包

C语言--每日选择题--Day30

LeetCode 274. H指数——排序

【洛谷 B2038】奇偶 ASCII 值判断题解（顺序结构+取余）

Ubuntu 20.4 源代码方式安装 cdo（笔记）

电子学会C/C++编程等级考试2022年12月（三级）真题解析

二叉树的最近公共祖先（C++实现）

【conda】容易遗忘的命令使用总结

蓝桥杯第一天-----时间显示

多文件夹图片预处理：清除空值、重置大小、分割训练集

【Java】集合之使用 Map

第二证券：股票几点到几点开盘？

goweb入门教程

量子计算：探索未来的计算技术

HarmonyOS应用开发者基础认证考试题目及答案

c# 文件读取和写入

【MySQL库的操作】

rocketmq 集群环境部署及与spring cloud 集成

SpringBoot——配置及原理

fiddler抓包安卓

Maven 进阶学习指南---setting详解