当前位置: 首页 > news >正文

Stable Diffusion入门-ControlNet 深入理解-第三课:结构类模型大揭秘——深度、分割与法线贴图


大家好,欢迎回到Stable Diffusion入门-ControlNet 深入理解系列的第三课!


在上一课中,我们深入探讨了 ControlNet 文件的命名规则,以及线条类 ControlNet模型的控制方法。如果你还没有看过第二篇,赶紧点这里补课:Stable Diffusion入门-ControlNet 深入理解 第二课:ControlNet模型揭秘与使用技巧!


今天我们将继续探索 ControlNet,重点介绍它的 结构类模型

你将会了解到 景深语义分割法线贴图 这几种模型的使用方法、效果和适用场景。


准备好了吗?让我们一起来揭开这些神奇的模型的面纱!



一、结构类模型简介


ControlNet 的结构类模型是帮助我们在图像中提取和控制空间、结构与纹理的强大工具。

你可以用这些模型来调整图像的深度感、物体的分割区域,甚至是表面细节的表现。

简单来说,这些模型就像是给你的AI绘画添加了一双“超级眼睛”,能够让它看得更远、更清晰,甚至更细腻!


今天,我们将一起探索这三大类模型:景深(Depth)语义分割(Segmentation)法线贴图(Normal)

听起来是不是很酷?接下来我们一一看!



二、景深(Depth)模型


景深模型是帮助我们控制图像纵深感和空间距离感的工具。

在这里插入图片描述


简单地说,它能够让AI绘画知道哪一部分应该更远、哪一部分应该更近。

它尤其适用于需要有层次感的场景,比如在绘制人物、风景等复杂的画面时,景深可以帮助控制图像的远近关系,避免看起来像是平面的、缺乏深度的画作。


比如上述跳舞的男孩,通过openpose,只能确定基础的骨架关系。但是手是在前面还是后面,如果没有depth的配合,就只能靠AI自由发挥了。


景深一共有如下预处理器:

在这里插入图片描述

1. Depth-MiDaS(MiDas深度图估算)


MiDaS是最常用的深度图估算预处理器之一。它通过估算图像中的深度信息,帮助我们构建更具纵深感的画面。


举个例子:假设你有一张舞蹈的男孩图片,通过 OpenPose 可以获取人物的骨架结构,但手是前面的还是后面的呢?如果没有 Depth 的配合,AI根本无法知道这些细节,只能靠“猜”。有了 Depth-MiDaS,AI就能明确地知道手的位置应该在前面,背景应该在后面,从而生成更加符合预期的图像。


2. Depth-ZoE(ZoE深度图估算)


Zoe 是另一种深度信息计算模型,适合用来对图像中的深度信息进行更细致的处理,帮助生成更多细节,特别是在一些运动画面或者动态场景中表现得更好。它对于像 Animatediff 等视频插件非常有效,能够帮助你在动画和视频生成中保留更好的深度细节。


3. Depth-LeRes / Depth-LeRes++(LeRes深度图估算)


LeRes专注于中距离物体的处理,生成更清晰的中景深区域,同时近景可能会显得有点模糊。

LeRes++在此基础上进行了优化,增加了更多的细节表现,特别是在中远景的细节处理上,效果更佳。


4. Depth-Hand Refiner(手部细化)


这个预处理器的名字就能猜到它的作用——帮助细化手部的深度效果。不过,效果一般,需要和专门的模型搭配使用。


5. Depth-Anything(通用深度)


相比其他深度模型,Depth-Anything 处理的预览图更加清晰锐利,适用于需要精细深度控制的场景,特别是运动画面,表现尤为突出。

它是视频插件中不可或缺的利器,能够帮助你在动态画面中获得精确的深度感。


在这里插入图片描述




三、语义分割(Segmentation)模型


语义分割模型通过对图片内容进行分区,帮助我们理解并控制画面中的不同元素。

它将图片划分为多个区域,使用不同颜色或标记来区分每个区域,比如人物、背景、建筑物等。这使得我们能够更精准地控制图像中的每一个部分,尤其在需要大场景更改时,效果尤为突出。


在这里插入图片描述


Segmentation 预处理器有以下几种:


在这里插入图片描述


1. Segmentation-OFade20k(常用预处理器)


Segmentation模型的作用就是对画面进行分割,帮助我们更好地调整图像的构图和内容。

Segmentation-OFade20k 是最常用的预处理器之一,适用于那些需要大范围场景修改的图像,比如想要改变风景或建筑的整体构图时,它可以帮助我们分割并控制每个部分。


2. Segmentation与Inpaint Anything的区别


  • Segmentation:通过对画面进行语义分割,使得每个区域都可以独立控制,适合大范围的画风更改。
  • Inpaint Anything:它的作用更侧重于局部修改,通过分割图像并生成蒙版来对某些特定区域进行细节处理,适合需要精细调整的情况。



四、法线贴图(Normal)模型


法线贴图通过凹凸纹理表现表面的细节,增强图像的光影效果,使得我们能够在二维图像上模拟出类似三维的凹凸感。

在这里插入图片描述


一共三个预处理器:

在这里插入图片描述


1. Normal-MiDaS


Normal-MiDaS 主要用于还原原图的光影效果,虽然它的老版本可能存在一些不足,但仍然能为我们带来一定的法线贴图效果。不过,随着技术的进步,其他更新的模型可能会表现得更好。


2. Normal-BAE(推荐)


这是目前最推荐使用的法线贴图预处理器,能够保留更多的光影细节,使得图像看起来更加真实和丰富。推荐大家在处理复杂场景时使用它,特别是那些需要较多细节和立体感的图像。



总结:如何选择结构类模型?


根据不同的需求和场景,选择适合的 结构类模型

  • 想要突出图像的深度感? 选择 Depth-MiDaSDepth-ZoE
  • 需要更清晰的深度细节? 选择 Depth-LeRes++
  • 要处理复杂的背景和前景分离? 使用 Segmentation-OFade20k
  • 想要增强图像的光影和细节? 选择 Normal-BAE


今天我们了解了 ControlNet结构类模型,下篇文章中,我们将继续探索更多高级技巧和应用方法。

想要了解如何更高效地利用这些模型,或者有任何疑问和建议,欢迎在评论区和我互动!记得继续关注,我们下一篇见!

http://www.lryc.cn/news/575878.html

相关文章:

  • 【向上教育】结构化面试开口秘籍.pdf
  • 【江科大】STM32F103C8T6 + TB6612 + N20编码器减速电机《03-增量式PID定速控制》(增量式PID,定时器输入捕获,定时器编码器)
  • 动手学Python:从零开始构建一个“文字冒险游戏”
  • Fiddler中文版抓包工具在跨域与OAuth调试中的深度应用
  • 电子电气架构 --- 车联网技术简介
  • 什么是国际期货?期货交易平台搭建
  • 在反向代理环境下精准获取客户端真实 IP 的最佳实践
  • Java项目:基于SSM框架实现的宠物综合服务平台管理系统【ssm+B/S架构+源码+数据库+毕业论文+开题报告】
  • 论分布式设计
  • 学习设计模式《十五》——模板方法模式
  • Python打卡:Day39
  • LLM驱动开发:正在重塑软件工程的下一场革命
  • Moxa 加入 The Open Group 的开放流程自动化™论坛,推动以开放、中立标准强化工业自动化
  • uniapp处理后端返回的html字符串
  • Redis-zset有序集合
  • 什么是DNS缓存投毒?有哪些防御措施?
  • mac 安装python,切换python版本
  • 聚铭网络入选嘶吼《中国网络安全细分领域产品名录》“云平台安全管理”与“态势感知”双领域TOP10
  • 【C++】责任链模式
  • VSCode中创建和生成动态库项目
  • CSS3实现同心圆效果
  • flink同步kafka到paimon,doris加速查询
  • RediSearch高性能全文搜索引擎
  • AI优化SEO关键词精进
  • 基于Redis分布式的限流
  • JavaScript性能优化
  • Feign 实战指南:从 REST 替代到性能优化与最佳实践
  • 【数据结构】B树的介绍及其实现C++
  • 探访成都芯谷金融中心文化科技产业园:解锁城市发展新密码
  • JDY-23蓝牙模块与电脑的连接方式