当前位置: 首页 > news >正文

Spring AI 实现调用openAi 多模态大模型

什么是多模态?

多模态(Multimodal)指的是数据或信息的多种表现形式。在人工智能领域,我们经常会听到这个词,尤其是在近期大型模型(如GPT-4)开始支持多模态之后。

  1. 模态:模态是指数据的一种形式,例如文本、图像、音频等。每一种形式都是一种模态。
  2. 多模态:多模态就是将不同模态的数据结合起来,以更全面、更丰富的方式来处理信息。比如,我们可以同时处理文本、图像、语音等多种类型的数据。

举个例子,如果我想告诉你“我有一个苹果”,我可以用文字写出来,也可以用语言说出来,还可以用图片画出来。这就是相同信息的多种模态表现形式。

同样地,给大模型一副图片,可以上大模型对这张图片进行详细地描述。给大模型一段文本,可以让大模型进行概要提取,内容总结等。

Spring AI的多模态

多模态是指模型能够同时理解和处理来自各种来源的信息,包括文本、图像、音频和其他数据格式。

Spring AI Message API提供了所有必要的抽象来支持多模态LLMs。

在这里插入图片描述

  • 消息的 content 字段主要用作文本输入,而可选的 media 字段允许添加一个或多个不同模态的附加内容,例如图像、音频和视频。
  • MimeType 指定模态类型。根据所使用的LLMs,媒体的数据字段可以是编码的原始媒体内容或内容的URI。

例如,我们要实现一个功能:将下面的图片(multimodal.test.png)作为输入,并要求LLM解释它在图片中看到了什么。

在这里插入图片描述

项目搭建参考 Spring AI 介绍以及与 Spring Boot 项目整合

下面是多模态代码的实现

http://www.lryc.cn/news/384264.html

相关文章:

  • 《妃梦千年》第十二章:层层迷雾
  • java的字节符输出流基类、File Writer类和Buffered Writer类
  • qt 简单实验 一个可以向右侧拖拽缩放的矩形
  • Google Adsense----Wordpress插入谷歌广告
  • 2-17 基于matlab的改进的遗传算法(IGA)对城市交通信号优化分析
  • VOC格式转YOLO格式,xml文件转txt文件简单通用代码
  • STL迭代器的基础应用
  • 【SQL】数据操作语言(DML) - 删除数据:精细管理数据的利刃
  • 异步复制,主库宕机后,数据可能丢失吗?
  • 如何在Spring Boot中优雅处理异常
  • 1.3.数据的表示
  • 【进阶篇-Day4:使用JAVA编写石头迷阵游戏】
  • 探索 LLamaWorker:基于LLamaSharp的.NET本地大模型服务
  • Qt开发 | Qt控件 | QTabWidget基本用法 | QListWidget应用详解 | QScrollArea应用详解
  • 2023年 AI APT可持续攻击的调查研究报告
  • Leetcode 102.目标和
  • LLM AI工具和Delphi名称的起源
  • 打破数据分析壁垒:SPSS复习必备(十一)
  • 【十六】【QT开发应用】Menu菜单,contextMenuEvent,setContextMenuPolicy,addAction
  • 华为DCN技术:M-LAG
  • k8s持久化之emptyDir使用
  • Java露营基地预约小程序预约下单系统源码
  • 七天速通javaSE:第四天 java方法
  • jupyter notebook的markdown语法不起作用
  • Redis 学习笔记(2)
  • 快慢指针:删除有序数组中的重复项
  • 用户登录错误次数太多锁定账号
  • tedsign vue3 web-端框架中封装一个验证码组件 以及对应node 接口逻辑说明
  • 探索Scala并发编程之巅:高效并行处理的艺术
  • AudioLM: 音频生成的革命性模型