当前位置：首页 > news >正文

【论文研读】SlowFast Networks for Video Recognition

news 2025/7/21 18:06:49

论文简介

标题：SlowFast Networks for Video Recognition
作者：Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, Kaiming He
期刊：IEEE
年份：2019
引用：C. Feichtenhofer, H. Fan, J. Malik and K. He, "SlowFast Networks for Video Recognition," 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 2019, pp. 6201-6210, doi: 10.1109/ICCV.2019.00630.

论文模型架构

SlowFast 模型架构

上图为 SlowFast 网络分为两种 Slow pathway 与 Fast pathway，而在其过程中又将 Fast 路径的输出结果通过侧向连接送入 Slow 通道，最终进行结果预测。

Slow pathway & Fast pathway

Slow 通道主要捕捉视频中的空间语义信息（如物体、场景等静态或缓慢变化的特征）。其采取了Low frame rate 获取低频图像数据。在论文实验中 Slow 通道设置了每秒跳过16帧（τ=16），即若按30FPS每秒的视频，刷新速度大约每秒2帧采样。将 Slow 通路采样的帧数表示为 T ，原始片段长度是 T×τ 帧。

Fast 通道主要捕捉快速运动信息（如动作细节、瞬时变化）。其采取了 High frame rate 用于获取高频图像数据。

Fast 通道追求高帧率、高时间分辨率以及低通道数量。为了实现高帧率，Fast 通道使用小的时序步长 τ/α （其中，α>1 是 Fast 和 Slow 通路之间的帧率比，Fast 通道采样帧数为 αT 会比 Slow 通道密集α倍）。为了实现高时间分辨率，Fast 通道到分类前的全局池化层之前，都没有使用任何时间下采样层（既没有时间池化也没有时间步长卷积）。为了实现低通道数量，Fast 通道数量通常为 Slow 通道数的 β ( β<1 )倍。

Lateral connections

Slow 通道和 Fast 通道两条通道的信息会进行融合，由 Fast 通道将信息传递至 Slow 通道，故而一条通路不会对另一条通路学习到的表示一无所知。

论文相关实验

论文在四个数据集（Kinetics-400 、Kinetics-600、Charades、AVA）中进行了实验验证。其中前三个数据集用于验证动作分类，最后一个数据集用于验证动作检测。

论文在Kinetics-400上取得很好的效果，实验数据如下图：

论文在Kinetics-600上的数据如下：

论文在AVA数据集上进行实验得到如下数据：

http://www.lryc.cn/news/594518.html

相关文章：

大语言模型调用方式与函数调用

从磁记录到数据中心：磁盘原理与服务器架构的完整技术链路

六边形滚动机器人cad【7张】三维图＋设计书明说

从零搭建智能搜索代理：LangGraph + 实时搜索 + PDF导出完整项目实战

【超越VGGT】π3-利用置换等变方法去除3r系列的归纳偏置

TypeScript 中替代 Interface 的方案

一文速通《二次型》

UE5多人MOBA+GAS 26、为角色添加每秒回血回蓝（番外：添加到UI上）

图的表示法以及实现

zabbix服务器告警处理

【windows 终端美化】Windows terminal + oh-my-posh 来美化命令行终端

C++ 桶排序、基数排序、堆排序

Beamer-LaTeX学习（教程批注版）【6】

selenium4 web自动化测试

对LLM某一层进行优化：通过眼动数据发现中间层注重语句内在含义，进而对中间层参数优化

《拆解WebRTC：NAT穿透的探测逻辑与中继方案》

Flink高频考点：Checkpoint与Savepoint的高可用实战指南

【详细笔记】两类曲线积分转换

PostgreSQL 字段类型速查与 Java 枚举映射

Shell脚本-grep工具

【超分辨率专题】OSEDiff：针对Real-World ISR的单步Diffusion

以“融合进化智领未来”之名，金仓Kingbase FlySync：国产数据库技术的突破与创新

基于单片机倾角测量仪/角度测量/水平仪

浅谈 Vue 的双向数据绑定

安全信息与事件管理（SIEM）系统架构设计

ABP VNext + Playwright E2E：前后端一体化自动化测试

MCP的inspector、了解具有上下文记忆功能的MCP——OpenMemory MCP

Node.js 中基于请求 ID 实现简单队列（即时阻止策略/排队等待策略）

Spring MVC上下文容器在Web容器中是如何启动的（源码深入剖析）？