当前位置: 首页 > news >正文

比肩 7B 表现!Ovis-U1-3B 集多模态理解、图像生成与编辑于一体

每天,我们或许都会面对这样的问题:

「这张图发朋友圈该配什么文案?」

「这封邮件的图片会不会让人误会我的意思?」

「我拍了张猫,它正做什么表情?我该怎么形容才幽默?」

别小看这些看似鸡毛蒜皮的场景,它们背后其实隐藏着一个难题:如何让模型同时理解图像和语言,并用人类自然的方式生成内容?

于是,Ovis-U1 出现了 —— 一款脑洞大开的多模态模型选手,既能「看图说话」,也能「答题解惑」,更能在图文之间来回切换、自由生成。不管是描述图片、回答问题、还是脑补一段图文小故事,它都能表现得像个「能干又懂人」的AI搭子。在多模态理解、生成和编辑等多个学术基准测试中,Ovis-U1 均取得领先的成绩,展现出强大的泛化能力和出色的性能表现。相关论文成果为「Ovis-U1 Technical Report」。

在这里插入图片描述

教程链接:https://go.openbayes.com/BSjFE

使用云平台: OpenBayes

http://openbayes.com/console/signup?r=sony_0m6v

首先点击「公共教程」,在公共教程中找到「Ovis-U1-3B:多模态理解与生成模型」,单击打开。

在这里插入图片描述

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在这里插入图片描述

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

在这里插入图片描述

在这里插入图片描述

数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「 API 地址」,即可进入模型操作界面。

在这里插入图片描述

模型具备多模态理解、图像生成、图像编辑三合一能力,共有 3 个操作界面。

  1. Image + Text → Image

在这里插入图片描述

参数说明

  • Advanced Settings

    • Image Guidance Scale:控制文本提示对生成图像的影响强度。
    • Text Guidance Scale:控制输入图像对生成图像的影响强度。
    • Steps:图像生成迭代步数。
    • Seed:随机种子,用于图像生成过程的可重复性。
    • Randomize seed:随机化种子,每次生成图像时都会随机生成一个新的种子。
  1. Text → Image

在这里插入图片描述

  1. Image → Text

在这里插入图片描述

首先点击「Text → Image」,输入 Prompt「Generate a picture of a puppy on the grass.」,可以看到模型很快生成了一张小狗在草地的图片。

在这里插入图片描述

接着对这张图片进行编辑,保存图片,点击「Image + Text → Image」,输入 Prompt「The puppy wearing sunglasses sits in a convertible, speeding down the road. The background is a sunset glow.」,模型很快给出了我们想要的效果,后面是晚霞,带着墨镜的小狗坐在敞篷车里。

在这里插入图片描述

最后点击「Image → Text 」,输入 Prompt「What is the puppy doing? 」,模型便给出了对图片的描述。

在这里插入图片描述

http://www.lryc.cn/news/603956.html

相关文章:

  • 《嵌入式C语言笔记(十五):字符串操作与多维指针深度解析》
  • Go进阶:流程控制(if/for/switch)与数组切片
  • ORACLE的用户维护与权限操作
  • 火山方舟使用豆包基模 —— 基础流程
  • 什么是ios企业签名?
  • ROUGE-WE:词向量化革新的文本生成评估框架
  • H.264视频的RTP有效载荷格式(翻译自:RFC6184 第5节 RTP有效载荷格式)
  • 自然语言处理NLP(3)
  • 烟草复杂包装识别准确率↑31%!陌讯多模态SKU检测算法在零售终端的实战解析
  • CMake 完全实战指南:从入门到精通
  • MySQL的JDBC编程
  • Seq2Seq学习笔记
  • 【绘制图像轮廓】——图像预处理(OpenCV)
  • idea运行tomcat日志乱码问题
  • CentOS安装ffmpeg并转码视频为mp4
  • 编程算法在金融、医疗、教育、制造业等领域的落地案例
  • 单片机(STM32-WIFI模块)
  • windows电脑如何截屏 windows电脑截屏教程汇总
  • 【机器学习深度学习】DeepSpeed框架:高效分布式训练的开源利器
  • Python Flask: Windows 2022 server SMB账户(共享盘账户)密码修改
  • 影刀RPA_初级课程_玩转影刀自动化_EXCEL操作自动化
  • 数据结构(5)单链表算法题(中)
  • 第二十二天(数据结构,无头节点的单项链表)
  • 期刊基础学习
  • 抵御酒店管理系统收银终端篡改攻击 API 加密的好处及实现——仙盟创梦IDE
  • 携全双工语音通话大模型亮相WAIC,Soul重塑人机互动新范式
  • BitMart 启动中文品牌“币市”:引领加密资产本地化发展新篇章
  • 【Linux】批量处理多个用户的 sudo 权限问题
  • 01背包问题:Python动态规划深度解析与工程实践
  • napping-1.0.1靶机练习