当前位置: 首页 > news >正文

diffusion model2 扩散模型的文本信息融合、交叉注意力机制、lora

前言

在上一篇文章中,我们剖析了diffusion model的原理,而在这一篇文章中,我们探讨与扩散模型有关的其他话题,包括扩散模型的unet是如何在推理噪声的过程中,融入文本信息的考量?其原理为交叉注意力机制,到底是什么机制?
扩散模型的LORA训练原理是什么?

交叉注意力机制

首先,参考Understanding Stable Diffusion from "Scratch"可知,扩散模型的主要技术点有unet、word embedding、cross attention、auto encoder。其中,文本能够影响图像生成的原因是交叉注意力机制

"Let text influence image through cross attention "

交叉注意力机制 中提到,在朴素的多头注意力机制之上改进,将QKV向量变成文本向量,就是交叉注意力机制了。

“如果 d_input 存在, 变成交叉注意力. 否则是自我注意力.查询,键,值设置被构造为输入 d_model的线性变换.”

LORA训练

AI绘画入门:扩散模型,Stable Diffusion,LoRA,ControlNet相关技术原理

LORA的原理是训练附加的网络参数,用于影响原有的网络行为。具体而言,就是在网络层一个大的转置矩阵旁,添加两个小矩阵的乘积,从而得到风格受影响的图片。

主要思路是在固定大网络的参数,并训练某些层(一般是某些层的线性部分,比如Transformer中的QKV的线性投影部分,以及FFN的线性部分)参数的增量,且这些参数增量可通过矩阵分解变成更少的可训练参数,大大降低finetune所需要训练的参数量。

http://www.lryc.cn/news/110883.html

相关文章:

  • 数据结构——二叉树
  • 架构训练营学习笔记:5-3接口高可用
  • 【笔记】湖仓一体架构演进与发展
  • 政务云建设与应用解决方案[42页PPT]
  • 20天突破英语四级高频词汇——第①天
  • 【网络基础实战之路】基于MGRE多点协议的实战详解
  • K8s实战入门(三)
  • Linux-centos花生壳实现内网穿透
  • Jackson类层次结构中的一些应用(Inheritance with Jackson)
  • Python求均值、方差、标准偏差SD、相对标准偏差RSD
  • SQL ASNI where from group order 顺序
  • springboot(39) : RestTemplate完全体
  • python中计算2的32次方减1,python怎么算2的3次方
  • 阿里云SLB负载均衡ALB、CLB和NLB有什么区别?
  • SynergyNet(头部姿态估计 Head Pose Estimation)复现 demo测试
  • mysql高级(尚硅谷-夏磊)
  • C++实用技术(二)std::function和bind绑定器
  • vue框架 element导航菜单el-submenu 简单使用方法--以侧边栏举例
  • Nodejs 第八章(npm搭建私服)
  • React Native获取手机屏幕宽高(Dimensions)
  • kubernetes基于helm部署gitlab
  • jmeter 5.1彻底解决中文上传乱码
  • 云运维工具
  • 【RL】Wasserstein距离-GAN背后的直觉
  • sentinel引入CommonFilter类
  • Phoenix创建local index失败
  • css3 hover border 流动效果
  • jdk安装
  • utf8mb4_general_ci 和utf8mb4_unicode_ci有什么异同,有什么优劣
  • java实现钉钉群机器人@机器人获取信息后,机器人回复(机器人接收消息)