当前位置：首页 > news >正文

[TI] [Textual Inversion] An image is worth an word

news 2025/8/23 2:28:02

自己的理解：

根据几个图像，找出来一个关键字可以代表它们，然后我们可以再用这个关键字去生成新的东西。

提出关键字

1 Introduction

word->token->embedding

Textual Inversion过程

需要：

① a fixed, pre-trained text-to-image model （一个固定的预训练模型）

② a small image set depicting the concept（一个描述概念的小图像集）

目标：

find a single word embedding, such that "A photo of S*" will lead to the reconstructions of images from our small set

3 Method

LDM

包含两个核心组件：

1.AutoEncoder

Encoder，把

Decoder

2.Diffusion Model

LDM Loss

Text embedding

典型的文本编码器（例如 BERT）都从文本处理步骤开始

① word (in a input string) convert to a token ( an index in some pre-defined dictionary某个预定义词典中的索引)

构建一个词汇表，包含数据集中出现的所有唯一token，通常是一个字典，将每个token映射到唯一的整数ID。

②each token then linked to a embedding vector (可以通过基于索引的查找来检索。)

对于每个token，使用词汇表的ID可以查找其对应的 embedding vector。

③learned as part of the text encoder c_{\theta}

in our work

定义一个 placeholder string S_*，表示我们想要学习的 new concept

干涉 embedding process，用 embedding v_* 取代与标记符相关的向量（本质上是把这个词注入到我们的词典中）

小结：

一串字符串文本，它的每个词可以通过分词器变为若干个 token，每个token可以映射到一个词向量，我们通过干预它映射词向量的过程，学得一个可以代表新特征的伪词。

Text Inversion

用 3-5张图片 depict 目标概念。

通过直接优化的方式，最小化 LDM loss，就可以找到 v_*

优化目标：

保持 \epsilon_{\theta} ,c_{\theta} 不变，重新训练LDM，来找到 V_*

小结：

通过几张图片输入到网络中，依据LDM loss，固定某些参数不变，来找到最合适的 V_*

参考资料：

Textual Inversion · AUTOMATIC1111/stable-diffusion-webui Wiki · GitHub

查看全文

http://www.lryc.cn/news/175469.html

remote: The project you were looking for could not be found

https跳过SSL认证时是不是就是不加密的,相当于http?

linux下链接

OpenCV项目开发实战--主成分分析（PCA）的特征脸应用(附C++/Python实现源码)

多层感知机——MLP

HttpClientr入门

网关-开放API接口签名验证方案

Linux知识点 -- 网络基础 -- 传输层

计算机视觉与深度学习-经典网络解析-AlexNet-[北邮鲁鹏]

Django学习笔记-实现联机对战（下）

一文了解什么SEO

SpringBoot+Jpa+Thymeleaf实现增删改查

最快的包管理器--pnpm创建vue项目完整步骤

算法通过村第九关-二分(中序遍历)黄金笔记|二叉搜索树

Mock.js之Element-ui搭建首页导航与左侧菜单

robotframework在Jenkins执行踩坑

关于ElementUI之首页导航与左侧菜单实现

基于springboot小区疫情防控系统

【k8s】YAML语言基础

AI时代的中国困境： ChatGPT为什么难以复制

如何使用Docker安装最新版本的Redis并设置远程访问（含免费可视化工具）

怒刷LeetCode的第8天（Java版）

Vue Hooks 让Vue开发更简单与高效

Go编程规范

premiere 新建视频导入视频拼接视频截取多余视频删除

笔记01：第一行Python

资产连接支持会话分屏，新增Passkey用户认证方式，支持查看在线用户信息，JumpServer堡垒机v3.7.0发布

uniapp项目实践总结(二十二)分包优化和游客模式

Unity中UI组件对Shader调色

PhpStorm 2023年下载、安装教程和好用插件，保姆级教程

1 Introduction

3 Method

LDM

Text embedding

Text Inversion

相关文章：