当前位置: 首页 > news >正文

【AIGC核心技术剖析】大型语言和视觉助手——LLaVA(论文+源码)

🔥 [新!LLaVA-1.5 在 11 个基准测试上实现了 SoTA,只需对原始 LLaVA 进行简单的修改,利用所有公共数据,在单个 1-A8 节点上在 ~100 天内完成训练,并超越使用数十亿级数据的方法。

LLaVA代表了一种新颖的端到端训练大型多模态模型,结合了视觉编码器和骆马 对于通用的视觉和语言理解, 实现令人印象深刻的聊天功能,模仿多模式 GPT-4 的精神,并在科学 QA 上设置新的最先进的准确性。
在这里插入图片描述
使用机器生成的指令跟踪数据调整大型语言模型(LLM)的指令提高了语言领域新任务的零镜头能力,但在多模态领域,这一想法较少被探索。多模式指示数据。我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。LLaVA模型介绍了LLaVA(L arge Language-a nd-Vision Assistant),这是一种端到端训练的大型多模态模型,它连接视觉编码器和LLM以实现通用视觉和语言理解。早期实验表明,LLaVA 表现出令人印象深刻的多模型聊天能力,有时在看不见的图像/指令上表现出多模态 GPT-4 的行为,并且在合成多模态指令遵循数据集上与 GPT-85 相比产生了 1.4% 的相对分数。 当对科学 QA 进行微调时,LLaVA 和 GPT-4 的协同作用达到了 92.53% 的新先进准确度。
开源。我们公开提供 GPT-4 生成的可视化指令调整数据、我们的模型和代码库。

论文摘要:使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调整提高了新任务的零镜头能力,但在多模态领域较少探索这一想法。在本文中ÿ

http://www.lryc.cn/news/199117.html

相关文章:

  • IBM的WAS简介与基本使用手册
  • Deno 快速入门
  • 【计算机网络笔记】OSI参考模型基本概念
  • ConnectTimeout和ReadTimeout所代表的意义
  • 使用Python计算平面多边形间最短距离,数据需要从excel表格中导入
  • 华为数通方向HCIP-DataCom H12-831题库(多选题:1-20)
  • CCC数字钥匙设计【NFC】--通过NFC进行车主配对Phase3
  • 开源OA协同办公系统,集成Flowable流程引擎 可拖拽创建个性表单
  • 为什么嵌入通常优于TF-IDF:探索NLP的力量
  • oracle-AWR报告生成方法
  • 笙默考试管理系统-MyExamTest----codemirror(37)
  • 【Unity3D编辑器拓展】Unity3D的IMGUI、GUI、GUILayout、EditorGUI、EditorGUILayout、OnGUI【全面总结】
  • 11. 机器学习 - 评价指标2
  • Nginx的代理和负载均衡
  • Oracle发布支持Vscode的Java插件
  • 互联网Java工程师面试题·Java 总结篇·第九弹
  • SpringCloud学习笔记-gateway网关自定义全局过滤器
  • 数字图像处理实验记录四(图像的空间域增强-平滑处理)
  • 怎么使用LightPicture开源搭建图片管理系统并远程访问?【搭建私人图床】
  • pytorch_神经网络构建4
  • 外骨骼机器人和人形机器人概览
  • Java面试题:链表-反转链表
  • el-upload实现上传文件夹
  • 京东数据平台(京东数据分析)2023年9月京东冰箱行业品牌销售排行榜!
  • 【Excel】WPS单元格快速转换表格字母大小写
  • 【java】【重构一】分模块开发设计实战
  • Cocos Creator3.8 项目实战(十)使用 protobuf详细教程
  • 第七章:最新版零基础学习 PYTHON 教程—Python 列表(第八节 -在 Python 中获取列表作为用户的输入)
  • Simple RPC - 02 通用高性能序列化和反序列化设计与实现
  • 简单秒表设计仿真verilog跑表,源码/视频