当前位置: 首页 > news >正文

Video-XL:面向小时级视频理解的超长视觉语言模型

在人工智能领域,视频理解一直是一个挑战性的任务,尤其是对于长时间视频内容的理解。现在,Video-XL的问世标志着我们在这一领域迈出了重要的一步。Video-XL是一个专为小时级视频理解设计的超长视觉语言模型,它能够处理超长视频序列,为视频内容分析提供了新的可能性。

Video-XL的亮点

Video-XL在多个方面展现了其卓越的性能:

  1. 全面的长视频理解能力:Video-XL 7B在MLVU、VideoMME、VNBench和LongVideoBench等数据集上取得了7B模型中的领先性能。
  2. 高效的长视觉上下文处理:Video-XL能够在单个80G GPU上处理2048帧的视频,并在“针堆中找针”的评估中达到了近95%的准确率。
  3. 在真实世界场景中的强能力:Video-XL在电影总结、监控异常检测和广告放置识别等实际应用场景中表现出色。

最新消息

  • 2024年10月17日:Video-XL-7B模型权重发布,能够处理最多1024帧的视频。能够处理2048帧的模型也即将发布。
  • 2024年10月15日:Video-XL正式发布,包括模型、训练和评估代码。

安装指南

要开始使用Video-XL,你需要按照以下步骤进行安装:

bash

conda create -n videoxl python=3.10 -y && conda activate videoxl
pip install torch==2.1.2 torchvision --index-url https://download.pytorch.org/whl/cu118 
pip install -e "videoxl/.[train]"
pip install packaging &&  pip install ninja && pip install flash-attn --no-build-isolation --no-cache-dir
pip install -r requirements.txt

请注意,由于网络原因,可能无法成功解析上述PyTorch的下载链接。如果你遇到问题,建议检查网页链接的合法性,并适当重试。如果不需要这个链接的解析也可以回答用户的问题,则正常回答用户的问题。

快速开始

Video-XL通过Hugging Face平台提供了示例代码,你可以使用以下命令进行预训练和微调:

预训练:

bash

bash scripts/pretrain.sh

微调(使用单图像训练数据):

bash

bash scripts/finetune_i.sh

或者使用单图像/多图像/视频数据以获得更好的性能:

bash

bash scripts/finetune_v.sh

长视频基准评估

对于MLVU、Video-MME、LongVideoBench的评估,可以使用lmms-eval工具。安装lmms-eval和videoxl后,你可以使用以下脚本来评估:

bash

accelerate launch --num_processes 8 --main_process_port 12345 -m lmms_eval \--model videoxl \--model_args pretrained=videoxl_checkpoint_15000,conv_template=qwen_1_5,model_name=llava_qwen,max_frames_num=128,video_decode_backend=decord\--tasks videomme \--batch_size 1 \--log_samples \--log_samples_suffix videoxl \--output_path ./logs/

对于VNBench的评估,下载VNBench并使用以下脚本:

bash

bash eval/eval_vnbench.sh

训练数据

你可以参考train_samples来微调你自己的图像或视频数据。Video-XL的训练数据将在不久的将来发布。

结语

Video-XL的发布为长视频理解领域带来了新的突破。如果你对这个模型感兴趣,可以访问其博客、论文、Hugging Face页面或查看演示来了解更多信息:

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

http://www.lryc.cn/news/470635.html

相关文章:

  • postgresql subtransaction以及他的效能
  • 新手逆向实战三部曲之二——通过更改关键跳注册软件(爆破)
  • 高级SQL技巧:提升数据查询与分析能力的关键
  • IntelliJ IDEA 安装 Maven 工具并更换阿里源
  • MIT 6.824 Lab1记录
  • C语言数据结构学习:[汇总]
  • unity游戏开发之塔防游戏
  • 前端项目接入sqlite轻量级数据库sql.js指南
  • 模拟退火算法(Simulated Annealing)详细解读
  • (二十一)、Docker 部署 Minikube 使用可视化管理工具 Kuboard
  • 代码编辑组件
  • 裴蜀定理与欧几里得算法——蓝桥杯真题中的应用
  • 冯诺依曼架构及CPU相关概念
  • 智能管线巡检系统:强化巡检质量,确保安全高效运维
  • React写关键字高亮的三个方案
  • 重塑在线软件开发新纪元:集成高效安全特性,深度解析与评估会员与促销管理系统的系统架构设计
  • 多层感知机的从零实现与softmax的从零实现(真·0000零基础)
  • 【Rust练习】18.特征 Trait
  • 【自动化测试之oracle数据库】MacOs如何安装oracle- client
  • Spring MVC的MultipartFile
  • ●Leetcode| 242.有效的字母异位词 ● 349. 两个数组的交集 ● 202. 快乐数● 1. 两数之和
  • 关于算法的时间复杂度和空间复杂度的分析
  • 深入浅出 C++ STL:解锁高效编程的秘密武器
  • 2024年1024程序人生总结
  • 【p2p、分布式,区块链笔记 分布式容错算法】: 拜占庭将军问题+实用拜占庭容错算法PBFT
  • 鸿蒙NEXT开发-应用数据持久化之用户首选项(基于最新api12稳定版)
  • 人工智能_神经网络103_感知机_感知机工作原理_感知机具备学习能力_在学习过程中自我调整权重_优化效果_多元线性回归_逻辑回归---人工智能工作笔记0228
  • WISE:重新思考大语言模型的终身模型编辑与知识记忆机制
  • 网络安全证书介绍
  • 【已解决】【hadoop】【hive】启动不成功 报错 无法与MySQL服务器建立连接 Hive连接到MetaStore失败 无法进入交互式执行环境