当前位置：首页 > news >正文

[CVPR]DVFL-Net：用于时空动作识别的轻量级蒸馏视频调焦网络

news 2025/7/21 16:35:09

研究背景与动机

视频识别技术演进：
- 从传统3D CNN转向Transformer架构，因后者能更好捕获长时空依赖关系。
- 核心问题：Transformer的自注意力机制计算复杂度高（O(n2)），处理密集视频数据时资源消耗大。
现有方案局限：
- Video-FocalNet（前期工作）用焦点调制（Focal Modulation）替代自注意力，但基础模型参数量达157M，仍不适合边缘设备部署。

核心创新：DVFL-Net

整体架构：
- 师生蒸馏框架：
  - 教师模型：预训练的Video-FocalNet Base（157M参数）。
  - 学生模型：轻量化VFL-Net（22M参数），通过知识蒸馏继承教师模型的时空知识。
  - 蒸馏机制：结合前向KL散度损失（Lkd）和交叉熵损失（Lce），优化目标为：
    Ltotal=α⋅Lkd+(1−α)⋅Lce

http://www.lryc.cn/news/594477.html

相关文章：

Python知识点2-if语句

FreeRTOS学习笔记之内存管理

Raz解决问题：You are offline.

[Linux]进程 / PID

【开源项目】基于RuoYi-Vue-Plus的开源进销存管理系统

Spring Boot 配置文件解析

USB技术发展史：从1.0到USB4的演进之路

Matplotlib Contourf 标注字体详细设置

Spring之AOP面向切面编程详解

【数据结构】双向循环链表的实现

MyBatis从浅入深

day24——Java高级技术深度解析：单元测试、反射、注解与动态代理

高性能熔断限流实现：Spring Cloud Gateway 在电商系统的实战优化

`SearchTransportService` 是 **协调节点与数据节点之间“搜索子请求”通信的运输层**

4种快速创建SpringBoot项目的方法

Claude Code 逆向工程分析，探索最新Agent设计

JavaScript 中Object、Array 和 String的常用方法

金融工程、金融与经济学知识点

数据结构与算法汇总

连接语言大模型（LLM）服务进行对话

GaussDB select into和insert into的用法

机器学习基础：从数据到智能的入门指南

python生成密钥

Self-Consistency：跨学科一致性的理论与AI推理的可靠性基石

An End-to-End Attention-Based Approach for Learning on Graphs NC 2025

JAVA面试宝典 -《API设计：RESTful 与 GraphQL 对比实践》

《通信原理》学习笔记——第五章

【1】YOLOv13 AI大模型-可视化图形用户（GUI）界面系统开发

Openlayers 面试题及答案180道（121-140）

让不符合要求的任何电脑升级Windows11