当前位置: 首页 > news >正文

CogVLM与CogAgent:开源视觉语言模型的新里程碑

引言

随着机器学习的快速发展,视觉语言模型(VLM)的研究取得了显著的进步。今天,我们很高兴介绍两款强大的开源视觉语言模型:CogVLM和CogAgent。这两款模型在图像理解和多轮对话等领域表现出色,为人工智能的发展开辟了新的道路。

CogVLM:强大的开源视觉语言模型

CogVLM是一个强大的开源视觉语言模型。CogVLM-17B拥有100亿的视觉参数和70亿的语言参数,支持490*490分辨率的图像理解和多轮对话。CogVLM-17B在10个经典的跨模态基准测试中取得了最佳性能,包括NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA和TDIUC,并在VQAv2, OKVQA, TextVQA, COCO字幕等方面排名第二,超越或匹敌PaLI-X 55B。CogVLM还可以和您聊关于图片的话题。

CogVLM的论文:https://arxiv.org/abs/2311.03079

CogAgent:基于CogVLM的视觉语言模型

CogAgent是基于CogVLM改进的开源视觉语言模型。CogAgent-18B拥有110亿的视觉参数和70亿的语言参数,支持1120*1120分辨率的图像理解。在CogVLM的能力之上,CogAgent进一步拥有了图形用户界面(GUI)Agent的能力。

CogAgent在9个经典的跨模态基准测试中实现了最先进的通用性能,包括VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE测试基准。它在如AITW和Mind2Web等GUI操作数据集上显著超越了现有的模型。除了CogVLM已有的所有功能(视觉多轮对话,视觉定位)之外,CogAgent支持更高分辨率的视觉输入和对话式问答,拥有视觉Agent的能力,并通过改进预训练和微调,提高了OCR相关任务的能力。

CogAgent的论文:https://arxiv.org/abs/2312.08914

如何开始使用CogVLM和CogAgent

1. 使用网页演示进行推理:您可以直接访问我们的CogVLM & CogAgent Web Demo进行体验。

2. 自行部署CogVLM / CogAgent:我们提供了详细的部署指南,包括命令行界面和网络演示的部署方式。您可以根据需要选择合适的方式。

3. 微调CogAgent / CogVLM:如果您想在自己的任务中使用CogVLM,我们提供了详细的微调指南,帮助您实现不同的输出风格或领域知识。

4. OpenAI格式:我们提供了与GPT-4V相同的API示例,您可以在openai_demo文件夹中查看。

详细用法请见GitHub页面。

硬件需求

模型推理需要至少1个RTX 3090(24G)显卡,CogAgent需要约12.6GB的显存,CogVLM需要约11GB的显存。如果使用FP16,则需要1个A100(80G)或2个RTX 3090(24G)显卡。微调则需要至少4个A100(80G)显卡,或者8个RTX 3090(24G)显卡。

结语

CogVLM和CogAgent的发布,为视觉语言模型的研究和应用开启了新的篇章。我们期待看到更多的研究者和开发者利用这两款模型,推动人工智能的发展。

http://www.lryc.cn/news/263185.html

相关文章:

  • CSS的盒子模型(重点)
  • 论文笔记:Bilinear Attention Networks
  • 2312llvm,01基本介绍
  • Spring之手写IoC
  • IDEA运行JSP启动后页面中文乱码
  • Python 自动化之收发邮件(二)
  • RHEL8_Linux_Ansible常用模块的使用
  • 2023 英特尔On技术创新大会直播 | AI 融合发展之旅
  • 【JavaWeb】往浏览器打印一个hello world
  • 技术探秘:在RISC Zero中验证FHE——由隐藏到证明:FHE验证的ZK路径(1)
  • Spring容器中scope为prototype类型Bean的回收机制
  • Python生成器(python系列25)
  • Vue项目搭建过程
  • 系统分析师(软考)知识点整理(一)
  • 2021年数维杯国际大学生数学建模D题2021年电影市场票房波动模型分析求解全过程文档及程序
  • Kubernetes 的用法和解析 -- 5
  • HTML选择题试题——附答案
  • html之CSS的高级选择器应用
  • elementui+ <el-date-picker type=“datetime“/>时间组件的当前时间的180天之内的禁止选择处理
  • 全网好听的BGM都在这里下载,赶紧收藏好了
  • Spark编程实验一:Spark和Hadoop的安装使用
  • 代理和AOP
  • Solidity-3-类型
  • 【mask转json】文件互转
  • 华清远见嵌入式学习——ARM——作业1
  • 如何在公网环境使用固定域名远程访问内网BUG管理系统协同办公
  • k8s pod网络排查教程
  • Apollo Planning——换道:LANE_CHANGE_DECIDER
  • Python 爬虫之简单的爬虫(三)
  • 为突发事件提供高现势性数据支撑!大势智慧助力中山市2023应急测绘保障演练举行