当前位置: 首页 > news >正文

开源新基准!OmniGen2 文本图像对齐度提升 8.6%,视觉一致性超越现有开源模型15%

OmniGen2 是北京人工智能研究院(BAAI)于 2025 年 6 月 16 日发布的开源多模态生成模型,旨在为多种生成任务提供统一的解决方案,包括文本到图像生成、图像编辑和上下文生成。与 OmniGen v1 不同,OmniGen2 为文本和图像模态设计了两条独立的解码路径,采用了非共享参数和分离的图像分词器。这一设计使得 OmniGen2 能够在现有的多模态理解模型基础上进行构建,而无需重新适应 VAE 输入,从而保留了原有的文本生成能力。其核心创新在于双路径架构和自我反思机制,成为当前开源多模态模型的新标杆。相关论文成果为「OmniGen2: Exploration to Advanced Multimodal Generation」。

 

教程链接:https://go.openbayes.com/oCWcX

使用云平台: OpenBayes

http://openbayes.com/console/signup?r=sony_0m6v

首先点击「公共教程」,在公共教程中找到「OmniGen2:探索高级多模态生成」,单击打开。

 

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

 

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

 

 

数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「 API 地址」,即可进入界面。若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

 

 

具体参数:

  • Height:高度

  • Width:宽度

  • Text Guidance Scale:文本引导尺度

  • Image Guidance Scale:图像引导尺度

  • CFG Range Start: 范围起始

  • CFG Range End:范围结束

  • Scheduler:调度器

  • Inference Steps:推理步骤

  • Number of images per prompt:每条提示的图像数量

  • Seed:种子

  • max_input_image_side_length:最大输入图像边长

  • max_pixels:最大像素

官方在这里给出了很多案例,大家可以自行尝试。

 

我们首先使用文本生成图片功能,输入 prompt「The girl by the sea」后点击「Generate」,可以看到它快速生成了一张在海边的女孩。

 

接下来可以保存图片,进行图片编辑,输入 prompt「Put a hat on her.」后点击「Generate」,可以看给女孩戴了一顶帽子。

http://www.lryc.cn/news/597407.html

相关文章:

  • MIPI DSI 转 1LVDS ,分辨率1920*1080.
  • 变频器带动电机:全方位解析参数变化
  • 14. 如何获取用户浏览器内核
  • 【无标题】word 中的中文排序
  • Docker详解及实战
  • Oracle物化视图详解
  • RPA认证考试全攻略:如何高效通过uipath、实在智能等厂商考试
  • InfluxDB HTTP API 接口调用详解(一)
  • 【DataWhale】快乐学习大模型 | 202507,Task06笔记
  • Hexo - 免费搭建个人博客03 - 将个人博客托管到github,个人博客公开给大家访问
  • 深度相机---像素转物理尺寸
  • Paimon的部分更新以及DeleteVector实现
  • 篇四 tcp,udp客户端服务器编程模型
  • MYSQL 笔记3
  • 实验室信息管理系统的设计与实现/实验室管理系统
  • lwIP学习记录5——裸机lwIP工程学习后的总结
  • 【bug】websocket协议不兼容导致的一个奇怪问题
  • Linux 723 磁盘配额 限制用户写入 quota;snap快照原理
  • Linux 环境下安装 MySQL 8.0.34 二进制 详细教程 附docker+k8s启动
  • VU2 学习笔记4 计算属性、监视属性
  • 北京互联网公司面试题精华解析
  • 计算机网络学习----Https协议
  • 直接偏好优化(DPO):原理、演进与大模型对齐新范式
  • python-82-基于ORM操作数据库(一)简单模型CRUD
  • UniappDay01
  • JavaWeb笔记12
  • MySQL深度理解-深入理解MySQL索引底层数据结构与算法
  • 容联云携手信通院,启动“智能体服务生态共创计划”
  • 华为云ELB(弹性负载均衡)持续报异常
  • 2025年Zigbee技术白皮书:全球物联网无线通信的关键创新