比肩 7B 表现!Ovis-U1-3B 集多模态理解、图像生成与编辑于一体
每天,我们或许都会面对这样的问题:
「这张图发朋友圈该配什么文案?」
「这封邮件的图片会不会让人误会我的意思?」
「我拍了张猫,它正做什么表情?我该怎么形容才幽默?」
别小看这些看似鸡毛蒜皮的场景,它们背后其实隐藏着一个难题:如何让模型同时理解图像和语言,并用人类自然的方式生成内容?
于是,Ovis-U1 出现了 —— 一款脑洞大开的多模态模型选手,既能「看图说话」,也能「答题解惑」,更能在图文之间来回切换、自由生成。不管是描述图片、回答问题、还是脑补一段图文小故事,它都能表现得像个「能干又懂人」的AI搭子。在多模态理解、生成和编辑等多个学术基准测试中,Ovis-U1 均取得领先的成绩,展现出强大的泛化能力和出色的性能表现。相关论文成果为「Ovis-U1 Technical Report」。
教程链接:https://go.openbayes.com/BSjFE
使用云平台: OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
首先点击「公共教程」,在公共教程中找到「Ovis-U1-3B:多模态理解与生成模型」,单击打开。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。
数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「 API 地址」,即可进入模型操作界面。
模型具备多模态理解、图像生成、图像编辑三合一能力,共有 3 个操作界面。
参数说明
-
Advanced Settings
- Image Guidance Scale:控制文本提示对生成图像的影响强度。
- Text Guidance Scale:控制输入图像对生成图像的影响强度。
- Steps:图像生成迭代步数。
- Seed:随机种子,用于图像生成过程的可重复性。
- Randomize seed:随机化种子,每次生成图像时都会随机生成一个新的种子。
首先点击「Text → Image」,输入 Prompt「Generate a picture of a puppy on the grass.」,可以看到模型很快生成了一张小狗在草地的图片。
接着对这张图片进行编辑,保存图片,点击「Image + Text → Image」,输入 Prompt「The puppy wearing sunglasses sits in a convertible, speeding down the road. The background is a sunset glow.」,模型很快给出了我们想要的效果,后面是晚霞,带着墨镜的小狗坐在敞篷车里。
最后点击「Image → Text 」,输入 Prompt「What is the puppy doing? 」,模型便给出了对图片的描述。