当前位置: 首页 > news >正文

可灵开源视频生成数据集 学习笔记

目录

介绍

可灵团队提出了四个模块的改进:

video caption

新指标 vtss 动态质量 静态质量 视频自然性


介绍

在视频数据处理中,建立准确且细致的条件是关键,可灵团队认为,解决这一问题需要关注三个主要方面:

文本与视频语义对齐:视频生成需要与视觉内容直接相关的详细字幕,而不是像视频问答中的基于问题的描述。这要求字幕极为丰富详细,因为视觉信号具有无限细致之处。此外,原始视频数据常包含复杂的过渡,增加了确保字幕准确性的难度。
低质量数据的评价与过滤:低质量视频(如画质差或过多人工效果)会妨碍训练,但对其进行准确评估和过滤依然是挑战。现有方法多依赖于人工选择的质量指标和启发式阈值过滤,这些通常为其他任务设计,未必适合视频生成,因此可能无法有效保证所需的数据质量。
数据质量的异质性:即使有数据过滤,数据集中视频质量仍然参差不齐。在相同方式下训练这些异质数据可能导致模型学习的不确定性。

  • 使用线性分类器提升过渡检测精度,从而改善视频的时间一致性。
  • 为分割视频片段生成平均长度为200字的结构化字幕,提升文本与视频的对齐。
  • 训练网络预测Video Training Suitability Score(VTSS),避免误删高质量数据,由网络单一输出的分值进行数据过滤。
  • 在训练期间引入数据指标作为生成模型的额外条件,帮助模型区分不同质量的数据,提高条件与视频内容的一致性,进而提升模型性能和可控性。

Panda70M是目前最大规模的公开可访问视频文本数据集

Koala-36M 包含 3600 万个视频片段,平均时长 13.75 秒,分辨率为 720p,每个视频都配有平均长度为 202 字的文字描述

可灵团队提出了四个模块的改进:

1、更加准确的分镜detection

2、提出一个structured caption system,可以对每个分镜产生200words的描述

3、训练了一个video training suitability score(VTSS)筛选高质量数据

4、把多个子指标作为metric condition喂给生成模型生成更好的效果

video caption

可灵团队使用了6种不同的captioner(都是用的GPT-4V),然后merge在一起。

主题 (The subject)
主体的动作 (Actions of the subject)
主体所处的环境 (The environment in which the subject is located)
视觉语言,包括风格、构图、光线等 (The visual language including style, composition, lighting, etc.)
摄影语言,包括镜头运动、角度、焦距、镜头尺寸等 (The camera language including camera movement, angles, focal length, shot sizes, etc.)
世界知识 (World knowledge)

新指标 vtss 动态质量 静态质量 视频自然性

动态质量:高质量视频应展现良好的动态性,评估时关注主体运动的幅度和运动的时间稳定性。视频中运动区域应覆盖超过30%的画面,否则因动态不足会降低评分。时间稳定性考虑摄像机的运动;非专业拍摄的视频常有不规则明显的抖动,这些视频的评分会降低,以区分专业作品。
静态质量:高质量视频的每一帧应具备丰富的主体细节、合理的构图、美学吸引力、清晰的主体和饱和的色彩。尽管这项指标可能涉及一些主观性,但对整体视觉质量的评估至关重要。
视频自然性:可灵团队偏好自然、未处理的视频。特效、转场、字幕和标志可能会引入视频分布的偏差,使得生成模型更难学习。此外,可灵团队考虑视频内容的安全性,拒绝含有政治、恐怖、暴力、色情、血腥或其他令人不安内容的视频。

http://www.lryc.cn/news/478677.html

相关文章:

  • 告别软文营销瓶颈!5招助你突破限制,实现宣传效果最大化
  • 秋冬进补防肥胖:辨证施补,健康过冬不增脂
  • uniapp radio单选
  • 通熟易懂地讲解GCC和Makefile
  • Java Agent使用
  • selenium 点击元素报错element not interactable
  • 【大数据技术基础 | 实验七】HBase实验:部署HBase
  • Android进程保活,lmkd杀进程相关
  • SDL 播放PCM
  • 基于MPPT最大功率跟踪的光伏发电蓄电池控制系统simulink建模与仿真
  • 深入解析Vue3:从入门到实战(详细版)
  • Pr 视频效果:ASC CDL
  • C++ --- Socket套接字的使用
  • MG协议转换器:制氢行业的数字桥梁
  • 人工智能技术的未来:变革生活与工作的潜力
  • D60【python 接口自动化学习】- python基础之数据库
  • 零基础大龄程序员如何转型AI大模型,系统学习路径与资源推荐!!
  • vue3+vant实现使用van-picker实现三级级联菜单展示(含递归遍历)
  • oracle-函数-grouping sets(x1,x2,x3...)的妙用
  • 人工智能在医疗病例诊断中的应用与展望
  • OceanBase 安装使用详细说明
  • CI_CD
  • Linux -- 初识线程
  • Uniapp底部导航栏设置(附带PS填充图标教程)
  • 单智能体carla强化学习实战工程介绍
  • 潮玩宇宙方块兽系统开发:可定制UI与多种游戏内嵌助力个性化体验
  • 什么是低代码?3000字低代码超全解读!
  • 雷池社区版7.1新版本自定义NGINX配置分析
  • [SAP ABAP] 面向对象程序设计-类和对象
  • 『大模型笔记』IBM技术团队:什么是智能体型RAG!