当前位置: 首页 > article >正文

Transformer + SD解析与实战——Datawhale AI视频生成学习2

Transformer + SD解析与实战——Datawhale AI视频生成学习2

文章目录

  • Transformer + SD解析与实战——Datawhale AI视频生成学习2
    • 文生图技术路径
      • 图像生成的四个阶段
      • Gan-based
      • VQGAN
      • Diffusion
      • 主流训练步骤
      • ModelScope
    • 手写LLM
      • Attention
      • Self-Attention
      • Llama结构图
      • TransformerBlock
      • 生成过程
      • UViT和DiT的区别
    • 参考来源

文生图技术路径

图像生成的四个阶段

在这里插入图片描述

Gan-based

GAN在人脸上比较好,但是不稳定,模式坍塌,窄分布的效果很好(人脸、人体)。对于自然分布的领域很好。

在这里插入图片描述

VQGAN

VQ-GAN是自回归方式,视频生成

在这里插入图片描述

Diffusion

在这里插入图片描述

基于transformer的diffusion

输入是一张256x256像素的图像,具有3个颜色通道(RGB)。图像通过编码器(Encoder)处理,生成一个压缩后的表示形式,称为latent表示,其空间维度被压缩为32x32x4。latent space的维度为32x32x4的向量。将latent space的每个token化,即用patchify方法,将label和timestep拼接上embedding。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

主流训练步骤

在这里插入图片描述

ModelScope

modelscope scepter万能图片生成工作台

可以直接用它们的低代码平台做推理

页面体验:https://modelscope.cn/studios/iic/scepter_studio/summary

也可以在“我的Notebook"里面创建笔记本,然后输入下面两行代码做一下训练端的

pip install scepter
python -m scepter.tools.webui --language zh

视频生成发展

脱离了4s的发展

在这里插入图片描述

手写LLM

Attention

在这里插入图片描述

第一行: h t h_t ht是target, h s h_s hs是source

Self-Attention

对于encoder和decoder的不同attention,处理的方式可能会不一样。对于encoder来说,不需要mask,可以看到所有的token,而Decoder是自回归,需要mask。

multi-head: attention可以分成多个,不同的注意力可以注意到不同的地方。

在这里插入图片描述

Llama结构图

在这里插入图片描述

TransformerBlock

class TransformerBlock:def __init__(
http://www.lryc.cn/news/2419986.html

相关文章:

  • linux ftp 配额 quota,linux – vsftpd中的配额?
  • Microsoft Visual C++ Runtime Library Runtime Error的解决的方法
  • HTML基础知识,全是干货
  • CentOS7 Nginx配置ssl证书实现https安全访问
  • 门诊软件(集药房管理、划价收费、电子病历、电子处方、诊疗卡、财务为一体)
  • 9、include 文件包含
  • pci-e串口卡linux 驱动下载,PCI/PCIe串口卡并口卡驱动
  • HMM(隐马尔可夫)中文分词
  • 白嫖云开发?这羊毛不薅?
  • 下载并安装WIN7 SP2的官方补丁包
  • 洛谷入门——P1179 [NOIP2010 普及组] 数字统计
  • Android BroadcastReceiver
  • 工业大数据:制造业中的优化策略
  • asp毕业设计——基于asp+access的公司门户网站设计与实现(毕业论文+程序源码)——公司门户网站
  • 做网站的流程与步骤
  • 信管家博易大师、智星、易盛等都是证券交易软件,它们的区别主要在以下几个方面
  • 计算机考试重点题目与答案
  • 什么是CGI文件
  • Python Selenium搭建UI自动化测试框架_python ui自动化框架(1)
  • 小RNA的测序技术路线以及分析流程
  • Gabor滤波器
  • 数据结构 - 向量简单介绍
  • 从零开始搭建个人博客(保姆级教程)
  • 网络:DHCP 协议简介
  • 阿里巴巴国际站商品信息搜索采集API接口说明文档(含请求示例)
  • 基于java+ssm+jsp的人事档案管理系统
  • C++课程设计学生宿舍管理信息系统
  • 基于ssm大学生创新创业平台项目管理子系统设计与实现
  • 测试会使用到的网络知识汇总
  • 用友u8操作手册_用友U8账表操作手册