当前位置: 首页 > news >正文

【论文研读】SlowFast Networks for Video Recognition

论文简介

标题:SlowFast Networks for Video Recognition
作者:Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, Kaiming He
期刊:IEEE
年份:2019
引用:C. Feichtenhofer, H. Fan, J. Malik and K. He, "SlowFast Networks for Video Recognition," 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 2019, pp. 6201-6210, doi: 10.1109/ICCV.2019.00630.

论文模型架构

SlowFast 模型架构

上图为 SlowFast 网络分为两种 Slow pathway 与 Fast pathway,而在其过程中又将 Fast 路径的输出结果通过侧向连接送入 Slow 通道,最终进行结果预测。

Slow pathway & Fast pathway

Slow 通道主要捕捉视频中的空间语义信息(如物体、场景等静态或缓慢变化的特征)。其采取了Low frame rate 获取低频图像数据。在论文实验中 Slow 通道设置了每秒跳过16帧(τ=16),即若按30FPS每秒的视频,刷新速度大约每秒2帧采样。将 Slow 通路采样的帧数表示为 T ,原始片段长度是 T×τ 帧。

Fast 通道主要捕捉快速运动信息(如动作细节、瞬时变化)。其采取了 High frame rate 用于获取高频图像数据。

Fast 通道追求高帧率、高时间分辨率以及低通道数量。为了实现高帧率,Fast 通道使用小的时序步长 τ/α ( 其中,α>1 是 Fast 和 Slow 通路之间的帧率比,Fast 通道采样帧数为 α​T 会比 Slow 通道密集α倍)。为了实现高时间分辨率,Fast 通道到分类前的全局池化层之前,都没有使用任何时间下采样层(既没有时间池化也没有时间步长卷积)。为了实现低通道数量,Fast 通道数量通常为 Slow 通道数的 β ( β<1 )倍。

Lateral connections

Slow 通道和 Fast 通道两条通道的信息会进行融合,由 Fast 通道将信息传递至 Slow 通道,故而一条通路不会对另一条通路学习到的表示一无所知。

论文相关实验

论文在四个数据集(Kinetics-400 、Kinetics-600、Charades、AVA)中进行了实验验证。其中前三个数据集用于验证动作分类,最后一个数据集用于验证动作检测。

论文在Kinetics-400上取得很好的效果,实验数据如下图:

论文在Kinetics-600上的数据如下:

论文在AVA数据集上进行实验得到如下数据:

http://www.lryc.cn/news/594518.html

相关文章:

  • 大语言模型调用方式与函数调用
  • 从磁记录到数据中心:磁盘原理与服务器架构的完整技术链路
  • CVE-2022-41128
  • 六边形滚动机器人cad【7张】三维图+设计书明说
  • 从零搭建智能搜索代理:LangGraph + 实时搜索 + PDF导出完整项目实战
  • 【超越VGGT】π3-利用置换等变方法去除3r系列的归纳偏置
  • TypeScript 中替代 Interface 的方案
  • 一文速通《二次型》
  • UE5多人MOBA+GAS 26、为角色添加每秒回血回蓝(番外:添加到UI上)
  • 图的表示法以及实现
  • zabbix服务器告警处理
  • 【windows 终端美化】Windows terminal + oh-my-posh 来美化命令行终端
  • C++ 桶排序、基数排序、堆排序
  • Beamer-LaTeX学习(教程批注版)【6】
  • selenium4 web自动化测试
  • 对LLM某一层进行优化:通过眼动数据发现中间层注重语句内在含义,进而对中间层参数优化
  • 《拆解WebRTC:NAT穿透的探测逻辑与中继方案》
  • Flink高频考点:Checkpoint与Savepoint的高可用实战指南
  • 【详细笔记】两类曲线积分转换
  • PostgreSQL 字段类型速查与 Java 枚举映射
  • Shell脚本-grep工具
  • 【超分辨率专题】OSEDiff:针对Real-World ISR的单步Diffusion
  • 以“融合进化 智领未来”之名,金仓Kingbase FlySync:国产数据库技术的突破与创新
  • 基于单片机倾角测量仪/角度测量/水平仪
  • 浅谈 Vue 的双向数据绑定
  • 安全信息与事件管理(SIEM)系统架构设计
  • ABP VNext + Playwright E2E:前后端一体化自动化测试
  • MCP的inspector、了解具有上下文记忆功能的MCP——OpenMemory MCP
  • Node.js 中基于请求 ID 实现简单队列(即时阻止策略/排队等待策略)
  • Spring MVC上下文容器在Web容器中是如何启动的(源码深入剖析)?