当前位置: 首页 > news >正文

《MDTv2- Masked Diffusion Transformer is a Strong Image Synthesizer》

论文摘要

论文提出了一种名为**Masked Diffusion Transformer (MDT)**的新模型,旨在增强扩散概率模型(DPMs)在图像合成中的上下文推理能力。通过引入掩码潜在建模方案,MDT能够显著提升DPMs在图像中对象部分之间关系的学习能力,从而加速学习过程。实验结果表明,MDTv2(MDT的改进版本)在ImageNet数据集上达到了新的最优FID分数1.58,并且学习速度比之前的最优模型快超过10倍。

拟解决的问题

现有的扩散概率模型在学习图像中对象部分之间的关系时存在困难,导致学习过程缓慢。具体而言,传统的DPMs往往独立地学习每个语义部分,忽视了它们之间的关联性,从而影响了生成图像的质量和效率。

创新之处

  1. 掩码潜在建模方案:MDT通过在潜在空间中掩码某些图像标记,显著增强了上下文学习能力。
  2. 不对称扩散变换器结构:设计了一种不对称的扩散变换器,能够在掩码输入的情况下进行生成过程,提升了模型的学习效率。
  3. MDTv2的改进:在MDT的基础上,MDTv2引入了更高效的宏网络结构和训练策略,进一步加快了学习速度。

方法

4.1 MDT v1

MDT通过引入掩码潜在建模方案,增强了DPMs对图像中对象语义部分之间关系的学习能力。这种方案通过在训练过程中掩码(即隐藏)某些图像标记,迫使模型从不完整的上下文中学习并预测这些被掩码的部分。

  • 掩码潜在建模(Masked Latent Modeling):在潜在空间中对图像标记进行掩码操作,然后通过不对称的扩散变换器结构来预测这些被掩码的标记。
  • 不对称扩散变换器(Asymmetric Diffusion Transformer):包含编码器、侧插值器和解码器。编码器和解码器被设计为位置感知的,以增强模型对标记之间位置关系的理解。侧插值器在训练时用于预测被掩码的标记,而在推理时则被移除。

训练过程:Noised Latent--->Patchfy--->Masking---->Encoder--->Side-Interp--->Decoder----->Latent<--->VAE encoder<---GT Image

推理过程:Noised Latent--->Patchfy--->Masking---->Encode--->Decoder----->Latent--->Generated Image

由此可知,训练阶段仅是为了学习到最下面的Pos. embed,也就是整个噪声图像的位置嵌入。训练阶段的监督对齐是在潜在空间进行对齐的,也就是利用VAE进行编码得来的潜在空间。

4.2 MDT v2

为了进一步加速扩散训练,MDTv2 结合了基于原始掩码扩散变换器架构的宏网络结构。虽然原始的MDT是基于DiT修改的,具有普通的网络结构,但MDTv2引入了具有增强快捷方式的宏观网络结构。这一进步显着加速了MDT的收敛速度。具体来说,MDTv2 在编码器中集成了类似 UNet 的长快捷方式和解码器中的密集输入快捷方式,进一步优化整体架构。

 

http://www.lryc.cn/news/437018.html

相关文章:

  • 算法 - 二分查找
  • Python知识点:如何使用Python进行图像批处理
  • 数据结构实验1
  • 使用Postman+JMeter进行简单的接口测试
  • 基于 SpringBoot 的车辆充电桩管理系统
  • centos7.9安装clamav教程
  • 产品经理如何转型为AI产品经理,如何理解AI产品工程化
  • TiDB从0到1学习笔记(精华篇)
  • NLP-新词挖掘
  • 电脑录屏不求人,9月必备免费录屏软件推荐!苹果电脑可用!
  • SpringMVC基于注解使用:国际化
  • 工地安全帽检测系统源码分享
  • 如何为 DigitalOcean 静态路由操作员设置故障转移
  • Ansible简单部署与使用
  • Harmony Next charles 抓包指南
  • 【HarmonyOS】Beta最新对外版本IDE下载和环境配置
  • 2024年9月第2周AI资讯
  • 【软件使用-MEGA】构建进化树报错
  • 面试常见八股
  • 第十八章 番外 余弦相似度
  • HPA和helm
  • 基于人工智能的智能语音助手
  • java实际开发——数据库存储金额时用什么数据类型?(MySQL、PostgreSQL)
  • Java 设计模式-状态模式
  • 2024.9.13 Python与图像处理新国大EE5731课程大作业,索贝尔算子计算边缘,高斯核模糊边缘,Haar小波计算边缘
  • 动态IP池的IP都是纯净IP吗?
  • 【MySQL】查询表中重复数据、模糊查询列信息、快速copy表数据(1)
  • 计算机操作系统之并行性与并发性笔记
  • 顶级高效的ChatGPT论文润色提示词和使用技巧
  • WebAPI (一)DOM树、DOM对象,操作元素样式(style className,classList)。表单元素属性。自定义属性。间歇函数定时器