当前位置: 首页 > article >正文

学习记录aigc

1、DIT

https://zhuanlan.zhihu.com/p/683612528

DiT最大的创新点是将Transformer引入到了扩散模型中,并完全抛弃了CNN。但是DiT并不是第一个引入Transformer的,例如之前的U-ViT,UniDiffuser等都尝试了将Transformer引入到扩散模型中。至于对效果提升同样非常有帮助的adaLN,zero-初始化,classifier-free guidance等则是已有的工作了。DiT引入条件信息还是仅仅局限在样本类别,接下来我们有必要学习一些引入文本序列作为条件的生成模型了。

1、Diffusion Model (扩散模型)系列四:DALLE 2

https://zhuanlan.zhihu.com/p/585300710

2、Diffusion Model(扩散模型) 系列5 :Stable-Diffusion

https://zhuanlan.zhihu.com/p/591432516

3、Diffusion Model(扩散模型) 系列6 :大杀器 ControlNet 详解

https://zhuanlan.zhihu.com/p/609075353

4、Diffusion Model(扩散模型) 系列7,另一种可控的生成方案: Composer: Creative and Controllable Image Synthesis

(2023|ICML,解耦表示,多条件生成,扩散)Composer:使用合成条件进行创意和可控图像合成_composer: creative and controllable image synthesi-CSDN博客

https://zhuanlan.zhihu.com/p/611787356

5、T2I-Adapter 解读: 控制diffusion model 方法

T2I-Adapter:学习适配器为文本到图像扩散模型挖掘更多可控能力_t2i adapter-CSDN博客

6、AIGC系列1:chatGPT和AI绘画-stable diffusion中很火的LoRa是?(更新中)

https://zhuanlan.zhihu.com/p/613410830

7、Diffusion Model (扩散模型) 系列9: MultiDiffusion:解决内存不足&高分辨率生成问题

https://zhuanlan.zhihu.com/p/618455424

https://zhuanlan.zhihu.com/p/623875680

8、AIGC系列2: Segment Anything Model (分割一切模型)

https://zhuanlan.zhihu.com/p/620852588


1、Stable-Diffusion相关源码分析及实践篇1:Control-Net

https://zhuanlan.zhihu.com/p/622542233

2、大模型中的位置编码ALiBi,RoPE的总结和实现

大模型中的位置编码ALiBi,RoPE的总结和实现_alibi位置编码-CSDN博客

3、Diffusion Model(扩散模型) 系列6-1 :大杀器 ControlNet V1.1 更新来啦

https://zhuanlan.zhihu.com/p/624602487

4、【玩转 GPU】ControlNet 初学者生存指南原创

【玩转 GPU】ControlNet 初学者生存指南-腾讯云开发者社区-腾讯云

5、【AIGC-AI视频生成系列-文章1】Text2Video-Zero

[2303.13439] Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

https://zhuanlan.zhihu.com/p/626777733

【论文阅读】Text2Video-Zero:Text-to-Image Diffusion Models are Zero-Shot Video Generators-CSDN博客

一句话亮点:当文本-视频生成也不需要额外数据训练,只需要基于现有的diffusion-model 如Stable Diffusion能力调整即可实现,解决生成视频帧间不一致问题,是不是很心动。

基于现有的文本-视频生成扩散模型的重数据,高需求,进行了以下改进:

  • zero-shot,仅仅使用现有的扩散模型如Stable-Diffusion。实现了相似甚至有时更好的性能

  • 用motion dynamics运动信息丰富生成帧的latent code,以保持全局场景和背景的一致性。用跨帧注意力机制来保留整个序列中前景对象的上下文、外观和身份,以保持生成场景和背景的一致性。

6、【Diffusion Model (扩散模型)系列10】LyCORIS :围绕LoRa的细粒度优化实现库

https://zhuanlan.zhihu.com/p/633044024

7、LoRA 改进:


1、【Diffusion Model (扩散模型)系列11】StyleDrop:单张图片的高质量风格化

2、【Diffusion Model (扩散模型)系列11】StyleDrop:单张图片的高质量风格化

3、【Diffusion Model (扩散模型)系列12】SnapFusion:扩散模型压缩,实现端上秒级应用

一句话总结:使用Snap之后,可以保证SD-1.5模型在端上秒级实现。

4、【Diffusion Model (扩散模型)总结篇-1】:一文梳理三种Stable Diffusion模型微调方法的异同

https://zhuanlan.zhihu.com/p/653818267

5、【Diffusion Model (扩散模型)系列13】IP-Adapter:将图像作为prompt引导生成模型

https://zhuanlan.zhihu.com/p/658320293

【一句话总结】

腾讯-AILab 又来整顿可控生成模块了,通过提取图像特征并作用于U-Net中,实现只需要一张图像就可以实现“垫图”功能,效果比目前常见相似生成的Control-Net shuffle/ Reference-Only 效果要更好。(并支持SDXL的相似生成)。

http://www.lryc.cn/news/2403553.html

相关文章:

  • set map数据结构
  • Q: dify前端使用哪些开发框架?
  • 面试题小结(真实面试)
  • 【PmHub面试篇】PmHub中基于Redis加Lua脚本的计数器算法限流实现面试专题解析
  • 计算机网络领域所有CCF-A/B/C类期刊汇总!
  • 有意向往gis开发靠,如何规划学习?
  • 五、查询处理和查询优化
  • 缓解骨质疏松 —— 补钙和补维 D
  • 《PMBOK® 指南》第八版草案重大变革:6 大原则重构项目管理体系
  • Ctrl+R 运行xxx.exe,发现有如下问题.
  • 极智项目 | 基于PyQT+Whisper实现的语音识别软件设计
  • vue+cesium示例:地形开挖(附源码下载)
  • 升级:用vue canvas画一个能源监测设备和设备的关系监测图!
  • Elasticsearch + Milvus 构建高效知识库问答系统《一》
  • 深入理解 transforms.Normalize():PyTorch 图像预处理中的关键一步
  • leetcode 2434. 使用机器人打印字典序最小的字符串 中等
  • 爆炸仿真的学习日志
  • 【Fiddler抓取手机数据包】
  • [华为eNSP] OSPF综合实验
  • 东芝Toshiba DP-4528AG打印机信息
  • Vue3+Vite中lodash-es安装与使用指南
  • 完美搭建appium自动化环境
  • c++中的输入输出流(标准IO,文件IO,字符串IO)
  • App使用webview套壳引入h5(三)——解决打包为app后在安卓机可物理返回但是在苹果手机无法测滑返回的问题
  • CSS中text-align: justify文本两端对齐
  • 2025年渗透测试面试题总结-ali 春招内推电话1面(题目+回答)
  • C#中的依赖注入
  • Reactor和Proactor
  • 黄晓明新剧《潜渊》定档 失忆三面间谍开启谍战新维度
  • 深入浅出Java ParallelStream:高效并行利器还是隐藏的陷阱?