当前位置: 首页 > news >正文

阿里系文生图(PAI+通义)

PAI-Diffusion模型来了!阿里云机器学习团队带您徜徉中文艺术海洋 - 知乎作者:汪诚愚、段忠杰、朱祥茹、黄俊导读近年来,随着海量多模态数据在互联网的爆炸性增长和训练深度学习大模型的算力大幅提升,AI生成内容(AI Generated Content,AIGC)的应用呈现出爆发性增长趋势。其中,文图…https://zhuanlan.zhihu.com/p/590020134EasyNLP中文文图生成模型带你秒变艺术家 - 知乎作者:汪诚愚、刘婷婷导读宣物莫大于言,存形莫善于画。 --【晋】陆机 多模态数据(文本、图像、声音)是人类认识、理解和表达世间万物的重要载体。近年来,多模态数据的爆炸性增长促进了内容互联网的繁荣,也带来…https://zhuanlan.zhihu.com/p/547063102ModelScope 魔搭社区https://modelscope.cn/studios/damo/ai_artist/summaryModelScope 魔搭社区https://modelscope.cn/models/damo/cv_diffusion_text-to-image-synthesis/summaryPAI Diffusion (Food) - a Hugging Face Space by alibaba-paiDiscover amazing ML apps made by the communityicon-default.png?t=N4P3https://huggingface.co/spaces/alibaba-pai/pai-diffusion-artist-xlarge-zh当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界 - 知乎作者:朱祥茹、段忠杰、汪诚愚、黄俊导读用户生成内容(User Generated Content,UGC)是互联网上多模态内容的重要组成部分,UGC数据级的不断增长促进了各大多模态内容平台的繁荣。在海量多模态数据和深度学习大模…https://zhuanlan.zhihu.com/p/581870071对比较英文文生图,对于我们而言,其实要更关注中文文生图,目前已知的太乙,altdiffusion这两个效果很差,非开源版本,百度的文心一格,阿里系的通义,通义后续应该会开源的,其次阿里系内部还有PAI平台也在做文生图,基于easynlp,基本都是开源的。

1.PAI-Diffusion

Text encoder:使用easynlp中文clip,clilp这块阿里系内部还有通义的chineseclip,效果也很好,这里用的是easynlp自己训得跨模态对齐模型的text transformer作为text encoder.

Latent Difuusion:同sd

Auto Endoer:同sd

SR:ESRGAN

使用Wukong数据集中的2千万中文图文数据对对latent diffusion mode部分进行了20天的预训练,并在多个下游任务上微调,参数量在1B左右。

2.vqvae

2.ARTIST

ARTIST模型的构建基于Transformer模型 ,将文图生成任务分为两个阶段进行,第一阶段是通过VQGAN模型对图像进行矢量量化,即对于输入的图像,通过编码器将图像编码为定长的离散序列,解码阶段是以离散序列作为输入,输出重构图。第二阶段是将文本序列和编码后的图像序列作为输入,利用GPT模型学习以文本序列为条件的图像序列生成。为了增强模型先验,我们设计了一个Word Lattice Fusion Layer,将知识图谱中的的实体知识引入模型,辅助图像中对应实体的生成,从而使得生成的图像的实体信息更加精准。

3.通义

整体参数50B

4.评测

 

http://www.lryc.cn/news/91690.html

相关文章:

  • Netty概述及Hello word入门
  • 汇编寄存器之内存访问
  • C++进阶 —— lambda表达式(C++11新特性)
  • 数据结构04:串的存储结构与KMP算法
  • 零基础快速搭建私人影音媒体平台
  • C++map和set
  • python接口测试之测试报告
  • HGFormer:用于领域广义语义分割的层级式分组Transformer
  • async函数用法
  • 简谈软件版本周期 | Alpha、Beta、RC、Stable版本之间的区别
  • VS2022发布独立部署的.net程序
  • 5-网络初识——封装和分用
  • 机器学习——特征工程
  • ubuntu安装搜狗输入法,图文详解+踩坑解决
  • docker 数据持久化
  • Pytest运行指定的case,这个方法真的很高效……
  • 操作系统复习2.3.4-进程同步问题
  • 3ds MAX 基本体建模,长方体、圆柱体和球体
  • 搭建个人博客
  • JavaScript进阶(下)
  • 基于PyQt5的图形化界面开发——堆栈动画演示
  • 2023 年第三届长三角高校数学建模竞赛赛题浅析
  • sqlite3免费加密开源项目sqlcipher简单使用
  • SOLIDWORKS PDM Professional中的Add-ins
  • 干货 | 郭晓雷:数智安全监管机制研究与思考
  • 感应雷电浪涌的防线,SPD浪涌保护器
  • ThreeJS教程:屏幕坐标转标准设备坐标
  • [elasticsearch 实现插入查询小demo ]
  • 因为计算机中丢失VCRUNTIME140怎么办?为什么会丢失VCRUNTIME140.dll
  • 【满分】【华为OD机试真题2023B卷 JAVAJS】数字游戏