当前位置：首页 > news >正文

Vid2seq

news 2025/8/23 12:51:20

Vid2Seq 应该是目前为止，个人最中意得一篇能够实际解决对一段视频进行粗略理解得paper了。个人认为它能够真正能解决视频理解是因为它是对一个模型整体做了训练，而不仅仅是通过visual encoders（e.g BLIP/CLIP/…）和其它multi modal 的encoder直接过了个projection，做一个轻松的finetune 就好。光训练projection的路子，划算是划算，但是效果不好，比如video-llama, PG video llava…

例子：（PS：是吧，就比那种光projection的，描述上要更贴合实际，而不是轻飘飘的说个摸棱两可的话）
在这里插入图片描述

对于一段视频，time_input_token 为（n, 2）, text_input_token 为（n，根据tokenize得到的长度），n为切分后的片段。
在这里插入图片描述
它就是直接concat 在前后（图例为语音）

模型输入有分视频画面和拼好后的语音。

仔细观察结构，不管是视频画面还是语音内容，都经过了两个步骤的encoders。等两个内容准备好后，要将它们按照以下形式再次拼接。

 if self.use_video and self.use_speech:encoded.last_hidden_state = torch.cat([video, encoded.last_hidden_state

查看全文

http://www.lryc.cn/news/333480.html

Opencv人机交互界面设置

蓝桥杯算法心得——字典树考试（贡献度+前缀和）

Linux下Qt生成程序崩溃文件

Go语言中测试和性能

回归预测 | Matlab基于CPO-GPR基于冠豪猪算法优化高斯过程回归的多输入单输出回归预测

python 日期字符串转换为指定格式的日期

day03-Docker

C语言函数实现冒泡排序

区间概率预测python|QR-CNN-BiLSTM+KDE分位数-卷积-双向长短期记忆神经网络-时间序列区间概率预测+核密度估计

Java 分支结构 - if…else/switch

【Unity每日一记】如何从0到1将特效图集制作成一个特效

磁力链接的示例与解释

云存储中常用的相同子策略的高效、安全的基于属性的访问控制的论文阅读

JVM高级篇之GC

第十四届蓝桥杯省赛大学C组（C/C++）三国游戏

java之static详细总结

RabbitMQ3.13.x之六_RabbitMQ使用场景

C++ 类和对象（初篇）

微软推出GPT-4 Turbo优先使用权：Copilot for Microsoft 365商业用户享受无限制对话及增强图像生成能力

Spring Boot Actuator

我与C++的爱恋：类与对象（一）

os模块篇（十八）

Oracle 数据库工作中常用知识点：sql语法与常用函数

软件工程

【御控物联】JavaScript JSON结构转换（17）：数组To对象——键值互换属性重组

免注册，ChatGPT可即时访问了！

探索未来游戏：生成式人工智能AI如何重塑你的游戏世界？

ubuntu23设置kibana后台启动服务

身份证实名制、C#身份核验代码示例、身份证查询

【leetcode面试经典150题】15.分发糖果（C++）

相关文章：