当前位置: 首页 > news >正文

[CVPR]DVFL-Net:用于时空动作识别的轻量级蒸馏视频调焦网络

研究背景与动机

  1. 视频识别技术演进​:

    • 从传统3D CNN转向Transformer架构,因后者能更好捕获长时空依赖关系。
    • 核心问题​:Transformer的自注意力机制计算复杂度高(O(n2)),处理密集视频数据时资源消耗大。
  2. 现有方案局限​:

    • Video-FocalNet(前期工作)用焦点调制(Focal Modulation)替代自注意力,但基础模型参数量达157M,仍不适合边缘设备部署。

核心创新:DVFL-Net

  1. 整体架构​:

    • 师生蒸馏框架​:
      • 教师模型​:预训练的Video-FocalNet Base(157M参数)。
      • 学生模型​:轻量化VFL-Net(22M参数),通过知识蒸馏继承教师模型的时空知识。
      • 蒸馏机制​:结合前向KL散度损失(Lkd​)和交叉熵损失(Lce​),优化目标为:
        Ltotal​=α⋅Lkd​+(1−α)⋅Lce​
      • </
http://www.lryc.cn/news/594477.html

相关文章:

  • Python知识点2-if语句
  • FreeRTOS学习笔记之内存管理
  • Raz解决问题:You are offline.
  • [Linux]进程 / PID
  • 【开源项目】基于RuoYi-Vue-Plus的开源进销存管理系统
  • Spring Boot 配置文件解析
  • USB技术发展史:从1.0到USB4的演进之路
  • Matplotlib Contourf 标注字体详细设置
  • Spring之AOP面向切面编程详解
  • 【数据结构】双向循环链表的实现
  • MyBatis从浅入深
  • day24——Java高级技术深度解析:单元测试、反射、注解与动态代理
  • 高性能熔断限流实现:Spring Cloud Gateway 在电商系统的实战优化
  • `SearchTransportService` 是 **协调节点与数据节点之间“搜索子请求”通信的运输层**
  • 4种快速创建SpringBoot项目的方法
  • Claude Code 逆向工程分析,探索最新Agent设计
  • JavaScript 中Object、Array 和 String的常用方法
  • 金融工程、金融与经济学知识点
  • 数据结构与算法汇总
  • 连接语言大模型(LLM)服务进行对话
  • GaussDB select into和insert into的用法
  • 机器学习基础:从数据到智能的入门指南
  • python生成密钥
  • Self-Consistency:跨学科一致性的理论与AI推理的可靠性基石
  • An End-to-End Attention-Based Approach for Learning on Graphs NC 2025
  • JAVA面试宝典 -《API设计:RESTful 与 GraphQL 对比实践》
  • 《通信原理》学习笔记——第五章
  • 【1】YOLOv13 AI大模型-可视化图形用户(GUI)界面系统开发
  • Openlayers 面试题及答案180道(121-140)
  • 让不符合要求的任何电脑升级Windows11