当前位置: 首页 > news >正文

原理代码解读:基于DiT结构视频生成模型的ControlNet

Diffusion Models视频生成-博客汇总

前言:相比于基于UNet结构的视频生成模型,DiT结构的模型最大的劣势在于生态不够完善,配套的ControlNet、IP-Adapter等开源权重不多,导致难以落地。最近DiT-based 5B的ControlNet开源了,相比于传统的ControlNet有不少改进点,这篇博客将从原理和代码上重点解读一下。

目录

原理讲解

代码讲解

DataLoader

第一步:VAE压缩Pose编码

第二步:直接concat

第三步:转换成embedding

效果

总结


原理讲解

基于开源的CogVideox FUN 5B模型,使用Pose控制信号替代了原本的mask信号,将控制信号使用VAE编码后作为Guidance与latent一起进入patch流程。

在0.48m数据中进行了筛选,选择出大约20000包含人像的视频与图片进行pose提取,作为condition控制信号进行训练。

在进行训练时,我们根据不同Toke

http://www.lryc.cn/news/465295.html

相关文章:

  • 【Pip】初识 Pip:Python 包管理的基本命令详解
  • JMeter 中两大高级线程组的区别与应用
  • 深入理解伪元素与伪类元素
  • HDU Romantic
  • [每日一练]通过shift移动函数实现连续数据的需求
  • go 中的斐波那契数实现以及效率比较
  • 基于ASP.NET的小型超市商品管理系统
  • spdlog学习记录
  • linux替换某个文件的某段内容命令
  • 什么是SQL注入攻击?如何防止呢?
  • consumer 角度讲一下i2c外设
  • 面试经典150题刷题记录
  • 【HarmonyOS NEXT】实现保存base64图片到图库
  • 开题答辩最怕被问什么?教你用ChatGPT轻松准备,稳拿高分!
  • Unity3D功耗和发热分析与优化详解
  • 深度学习中的掩码介绍
  • rust高级进阶总结
  • 整理—计算机网络
  • 分布式数据库环境(HBase分布式数据库)的搭建与配置
  • 100个JavaWeb(JDBC, Servlet, JSP)毕业设计选题
  • 05 go语言(golang) - 常量和条件语句
  • 【设计模式】深入理解Python中的适配器模式(Adapter Pattern)
  • RuoYi-Vue若依框架-后端设置不登陆访问(白名单)
  • C语言初阶小练习2(三子棋小游戏的实现代码)
  • 金融行业合同管理如何利用AI技术进行风险预警?
  • 世界数字农业盛宴与技术探索,25年3月聚焦世界灌溉科技大会
  • 二百六十九、Kettle——ClickHouse清洗ODS层原始数据增量导入到DWD层表中
  • Maya---骨骼绑定
  • 携手并进,智驭教育!和鲸科技与智谱 AI 签署“101 数智领航计划”战略合作协议
  • 牛客周赛63