当前位置: 首页 > article >正文

论文阅读(六)Open Set Video HOI detection from Action-centric Chain-of-Look Prompting

论文来源:ICCV(2023)

项目地址:https://github.com/southnx/ACoLP

1.研究背景与问题

开放集场景下的泛化性:传统 HOI 检测假设训练集包含所有测试类别,但现实中存在大量未见过的 HOI 类别(如 “修理自行车” 在训练中未出现)。视频 HOI 需处理时间动态信息(如 “打开”“关闭” 等时序动作),静态图像方法无法直接迁移。

时序信息建模困难:视频中的交互依赖连续帧的时空关系,现有方法多聚焦物体和人体特征,忽略动作本身的语义核心作用。

现有方法局限:

  • 缺乏动作中心建模:多数方法以物体 / 人体为中心,忽视动词(动作)的核心语义价值。

  • 开放集能力不足:未显式设计泛化机制,难以识别训练未见的 HOI 类别。

2.核心创新点

2.1 动作中心的链式视觉提示(Chain-of-Look Prompting)

  • 灵感来源:自然语言处理中的 “思维链”(Chain-of-Thought)提示,将复杂推理分解为中间步骤。

  • 视频 HOI 的视觉推理分解

    • 视觉语义推理网络(VSR)

      • CaptionHOI 提示(CHP):利用 CLIP 和 BLIP 生成全局语义提示,融合图像字幕的高层语义(如 “人正在骑自行车”)。

      • VisualHOI 提示(VHP):通过目标检测提取人机对视觉特征,增强局部视觉信息(如人体姿势、物体位置)。

    • 时空推理网络(STR)

      • 动作提示(AP):将帧级视觉特征抽象为动作提示(如 “推”“拉”),对齐视觉与语义空间。

      • 动态 GNN(D-GNN):建模跨帧动作的时间依赖,传播语义信息以捕捉时序动态(如 “开门” 的连续动作)。

2.2 开放集泛化机制

  • 预训练视觉 - 语言模型(CLIP)的零样本能力

    • 通过 CLIP 文本编码器生成动作和 HOI 类别的语义嵌入,利用其视觉 - 语言对齐能力识别未见类别。

  • 分层推理链

    • 通过 CHP→VHP→AP→D-GNN 的链式结构,逐步从全局语义、局部视觉、动作抽象到时空动态,增强泛化性。

2.3 端到端的视频 HOI 检测框架

  • 两阶段流程

    • 目标检测:使用 Faster R-CNN 提取人机边界框和实例特征。

    • 交互预测:通过 VSR 和 STR 生成动作与 HOI 提示,结合多层感知机(MLP)预测交互类别和边界框。

3.实验

3.1 计算要求

100 epochs on 4 GPUs with a batch size of 128(未提及具体显卡类型)

3.2 实验结果

4.结论与展望

4.1 贡献总结

首个开放集视频 HOI 检测模型:通过动作中心的链式提示机制,显式建模动作语义和时序动态。

高效泛化能力:利用 CLIP 的零样本能力和动态 GNN 的时序建模,显著提升未见类别的检测性能。

双模态推理框架:融合全局语义、局部视觉和时空动态,在开放集和封闭集场景均达 SOTA。

4.2 局限与未来方向

局限:对极低频交互(如单样本)泛化能力有限;计算成本较高(依赖预训练模型)。

未来方向:引入动态提示调整机制;探索无锚框的端到端检测;扩展至更长时序的视频片段。

http://www.lryc.cn/news/2396489.html

相关文章:

  • 算法学习--持续更新
  • Postman 发送 SOAP 请求步骤 归档
  • Python Day39 学习(复习日志Day4)
  • [Python] Python自动化:PyAutoGUI的基本操作
  • 课程介绍:《ReactNative基础与实战指南2025》
  • “候选对话链”(Candidate Dialogue Chain)概念
  • 应急响应靶机-web2-知攻善防实验室
  • comfyui利用 SkyReels-V2直接生成长视频本地部署问题总结 1
  • UV 包管理工具:替代 pip 的现代化解决方案
  • css3 新增属性/滤镜效果/裁剪元素/图片适应盒子/定义和使用变量/恢复默认initial
  • YOLOv8 实战指南:如何实现视频区域内的目标统计与计数
  • matlab实现VMD去噪、SVD去噪,源代码详解
  • SQLite软件架构与实现源代码浅析
  • JAVA实战开源项目:精简博客系统 (Vue+SpringBoot) 附源码
  • Flink SQL 编程详解:从入门到实战难题与解决方案
  • GO+RabbitMQ+Gin+Gorm+docker 部署 demo
  • 通过openpyxl在excel中插入散点图
  • 基于cornerstone3D的dicom影像浏览器 第二十五章 自定义VR调窗工具
  • 针对 Harmony-Cordova 性能优化,涵盖原生插件开发、线程管理和资源加载等关键场景
  • 【SCI论文实现】信息引导的高质量三维重建——系统架构设计 PYTHON
  • 经典面试题:一文了解常见的缓存问题
  • Vue3处理number输入框避免NaN
  • GC1267F:单相全波风扇电机预驱动芯片解析
  • Linux --进程状态
  • 如何设计一个支持线上线下的通用订单模块 —— 面向本地生活服务行业的架构思路
  • 智能手机上用Termux安装php+Nginx
  • 【线上故障排查】缓存穿透攻击的识别与布隆过滤器(面试题 + 3 步追问应对 + 案例分析)
  • Visual Studio 调试中 PDB 与图像不匹配
  • 设计模式——策略设计模式(行为型)
  • 保持本地 Git 项目副本与远程仓库完全同步