当前位置：首页 > news >正文

Stable Diffusion入门-ControlNet 深入理解-第三课：结构类模型大揭秘——深度、分割与法线贴图

news 2025/6/28 7:47:14

大家好，欢迎回到Stable Diffusion入门-ControlNet 深入理解系列的第三课！

在上一课中，我们深入探讨了 ControlNet 文件的命名规则，以及线条类 ControlNet模型的控制方法。如果你还没有看过第二篇，赶紧点这里补课：Stable Diffusion入门-ControlNet 深入理解第二课：ControlNet模型揭秘与使用技巧!

今天我们将继续探索 ControlNet，重点介绍它的 结构类模型。

你将会了解到景深、语义分割 和 法线贴图 这几种模型的使用方法、效果和适用场景。

准备好了吗？让我们一起来揭开这些神奇的模型的面纱！

一、结构类模型简介

ControlNet 的结构类模型是帮助我们在图像中提取和控制空间、结构与纹理的强大工具。

你可以用这些模型来调整图像的深度感、物体的分割区域，甚至是表面细节的表现。

简单来说，这些模型就像是给你的AI绘画添加了一双“超级眼睛”，能够让它看得更远、更清晰，甚至更细腻！

今天，我们将一起探索这三大类模型：景深（Depth）、语义分割（Segmentation） 和 法线贴图（Normal）。

听起来是不是很酷？接下来我们一一看！

二、景深（Depth）模型

景深模型是帮助我们控制图像纵深感和空间距离感的工具。

在这里插入图片描述

简单地说，它能够让AI绘画知道哪一部分应该更远、哪一部分应该更近。

它尤其适用于需要有层次感的场景，比如在绘制人物、风景等复杂的画面时，景深可以帮助控制图像的远近关系，避免看起来像是平面的、缺乏深度的画作。

比如上述跳舞的男孩，通过openpose，只能确定基础的骨架关系。但是手是在前面还是后面，如果没有depth的配合，就只能靠AI自由发挥了。

景深一共有如下预处理器：

在这里插入图片描述

1. Depth-MiDaS（MiDas深度图估算）

MiDaS是最常用的深度图估算预处理器之一。它通过估算图像中的深度信息，帮助我们构建更具纵深感的画面。

举个例子：假设你有一张舞蹈的男孩图片，通过 OpenPose 可以获取人物的骨架结构，但手是前面的还是后面的呢？如果没有 Depth 的配合，AI根本无法知道这些细节，只能靠“猜”。有了 Depth-MiDaS，AI就能明确地知道手的位置应该在前面，背景应该在后面，从而生成更加符合预期的图像。

2. Depth-ZoE（ZoE深度图估算）

Zoe 是另一种深度信息计算模型，适合用来对图像中的深度信息进行更细致的处理，帮助生成更多细节，特别是在一些运动画面或者动态场景中表现得更好。它对于像 Animatediff 等视频插件非常有效，能够帮助你在动画和视频生成中保留更好的深度细节。

3. Depth-LeRes / Depth-LeRes++（LeRes深度图估算）

LeRes专注于中距离物体的处理，生成更清晰的中景深区域，同时近景可能会显得有点模糊。

LeRes++在此基础上进行了优化，增加了更多的细节表现，特别是在中远景的细节处理上，效果更佳。

4. Depth-Hand Refiner（手部细化）

这个预处理器的名字就能猜到它的作用——帮助细化手部的深度效果。不过，效果一般，需要和专门的模型搭配使用。

5. Depth-Anything（通用深度）

相比其他深度模型，Depth-Anything 处理的预览图更加清晰锐利，适用于需要精细深度控制的场景，特别是运动画面，表现尤为突出。

它是视频插件中不可或缺的利器，能够帮助你在动态画面中获得精确的深度感。

在这里插入图片描述

三、语义分割（Segmentation）模型

语义分割模型通过对图片内容进行分区，帮助我们理解并控制画面中的不同元素。

它将图片划分为多个区域，使用不同颜色或标记来区分每个区域，比如人物、背景、建筑物等。这使得我们能够更精准地控制图像中的每一个部分，尤其在需要大场景更改时，效果尤为突出。

在这里插入图片描述

Segmentation 预处理器有以下几种：

在这里插入图片描述

1. Segmentation-OFade20k（常用预处理器）

Segmentation模型的作用就是对画面进行分割，帮助我们更好地调整图像的构图和内容。

Segmentation-OFade20k 是最常用的预处理器之一，适用于那些需要大范围场景修改的图像，比如想要改变风景或建筑的整体构图时，它可以帮助我们分割并控制每个部分。

2. Segmentation与Inpaint Anything的区别

Segmentation：通过对画面进行语义分割，使得每个区域都可以独立控制，适合大范围的画风更改。
Inpaint Anything：它的作用更侧重于局部修改，通过分割图像并生成蒙版来对某些特定区域进行细节处理，适合需要精细调整的情况。

四、法线贴图（Normal）模型

法线贴图通过凹凸纹理表现表面的细节，增强图像的光影效果，使得我们能够在二维图像上模拟出类似三维的凹凸感。

在这里插入图片描述

一共三个预处理器：

在这里插入图片描述

1. Normal-MiDaS

Normal-MiDaS 主要用于还原原图的光影效果，虽然它的老版本可能存在一些不足，但仍然能为我们带来一定的法线贴图效果。不过，随着技术的进步，其他更新的模型可能会表现得更好。

2. Normal-BAE（推荐）

这是目前最推荐使用的法线贴图预处理器，能够保留更多的光影细节，使得图像看起来更加真实和丰富。推荐大家在处理复杂场景时使用它，特别是那些需要较多细节和立体感的图像。

总结：如何选择结构类模型？

根据不同的需求和场景，选择适合的 结构类模型：

想要突出图像的深度感？ 选择 Depth-MiDaS 或 Depth-ZoE。
需要更清晰的深度细节？ 选择 Depth-LeRes++。
要处理复杂的背景和前景分离？ 使用 Segmentation-OFade20k。
想要增强图像的光影和细节？ 选择 Normal-BAE。

今天我们了解了 ControlNet 的 结构类模型，下篇文章中，我们将继续探索更多高级技巧和应用方法。

想要了解如何更高效地利用这些模型，或者有任何疑问和建议，欢迎在评论区和我互动！记得继续关注，我们下一篇见！

http://www.lryc.cn/news/575878.html

相关文章：

【向上教育】结构化面试开口秘籍.pdf

【江科大】STM32F103C8T6 + TB6612 + N20编码器减速电机《03-增量式PID定速控制》(增量式PID,定时器输入捕获，定时器编码器)

动手学Python：从零开始构建一个“文字冒险游戏”

Fiddler中文版抓包工具在跨域与OAuth调试中的深度应用

电子电气架构 --- 车联网技术简介

什么是国际期货？期货交易平台搭建

在反向代理环境下精准获取客户端真实 IP 的最佳实践

Java项目：基于SSM框架实现的宠物综合服务平台管理系统【ssm+B/S架构+源码+数据库+毕业论文+开题报告】

论分布式设计

学习设计模式《十五》——模板方法模式

Python打卡：Day39

LLM驱动开发：正在重塑软件工程的下一场革命

Moxa 加入 The Open Group 的开放流程自动化™论坛，推动以开放、中立标准强化工业自动化

uniapp处理后端返回的html字符串

Redis-zset有序集合

什么是DNS缓存投毒？有哪些防御措施？

mac 安装python，切换python版本

聚铭网络入选嘶吼《中国网络安全细分领域产品名录》“云平台安全管理”与“态势感知”双领域TOP10

【C++】责任链模式

VSCode中创建和生成动态库项目

CSS3实现同心圆效果

flink同步kafka到paimon，doris加速查询

RediSearch高性能全文搜索引擎

AI优化SEO关键词精进

基于Redis分布式的限流

JavaScript性能优化

Feign 实战指南：从 REST 替代到性能优化与最佳实践

【数据结构】B树的介绍及其实现C++

探访成都芯谷金融中心文化科技产业园：解锁城市发展新密码

JDY-23蓝牙模块与电脑的连接方式