当前位置：首页 > news >正文

比肩 7B 表现！Ovis-U1-3B 集多模态理解、图像生成与编辑于一体

news 2025/7/30 12:16:12

每天，我们或许都会面对这样的问题：

「这张图发朋友圈该配什么文案？」

「这封邮件的图片会不会让人误会我的意思？」

「我拍了张猫，它正做什么表情？我该怎么形容才幽默？」

别小看这些看似鸡毛蒜皮的场景，它们背后其实隐藏着一个难题：如何让模型同时理解图像和语言，并用人类自然的方式生成内容？

于是，Ovis-U1 出现了 —— 一款脑洞大开的多模态模型选手，既能「看图说话」，也能「答题解惑」，更能在图文之间来回切换、自由生成。不管是描述图片、回答问题、还是脑补一段图文小故事，它都能表现得像个「能干又懂人」的AI搭子。在多模态理解、生成和编辑等多个学术基准测试中，Ovis-U1 均取得领先的成绩，展现出强大的泛化能力和出色的性能表现。相关论文成果为「Ovis-U1 Technical Report」。

在这里插入图片描述

教程链接：https://go.openbayes.com/BSjFE

使用云平台: OpenBayes

http://openbayes.com/console/signup?r=sony_0m6v

首先点击「公共教程」，在公共教程中找到「Ovis-U1-3B：多模态理解与生成模型」，单击打开。

在这里插入图片描述

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在这里插入图片描述

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本，不需要再进行手动选择。点击「继续执行」，等待分配资源。若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

在这里插入图片描述

数据和代码都已经同步完成了。容器状态显示为「运行中」后，点击「 API 地址」，即可进入模型操作界面。

在这里插入图片描述

模型具备多模态理解、图像生成、图像编辑三合一能力，共有 3 个操作界面。

Image + Text → Image

在这里插入图片描述

参数说明

Advanced Settings
- Image Guidance Scale：控制文本提示对生成图像的影响强度。
- Text Guidance Scale：控制输入图像对生成图像的影响强度。
- Steps：图像生成迭代步数。
- Seed：随机种子，用于图像生成过程的可重复性。
- Randomize seed：随机化种子，每次生成图像时都会随机生成一个新的种子。

Text → Image

在这里插入图片描述

Image → Text

在这里插入图片描述

首先点击「Text → Image」，输入 Prompt「Generate a picture of a puppy on the grass.」,可以看到模型很快生成了一张小狗在草地的图片。

在这里插入图片描述

接着对这张图片进行编辑，保存图片，点击「Image + Text → Image」，输入 Prompt「The puppy wearing sunglasses sits in a convertible, speeding down the road. The background is a sunset glow.」，模型很快给出了我们想要的效果，后面是晚霞，带着墨镜的小狗坐在敞篷车里。

在这里插入图片描述