当前位置: 首页 > news >正文

本地部署大模型—MiniCPM-V 2.0: 具备领先OCR和理解能力的高效端侧多模态大模型

MiniCPM-V 2.0: 具备领先OCR和理解能力的高效端侧多模态大模型

简介

MiniCPM 系列的最新多模态版本 MiniCPM-V 2.0。该模型基于 [MiniCPM 2.4B和 SigLip-400M 构建,共拥有 2.8B 参数。MiniCPM-V 2.0 具有领先的光学字符识别(OCR)和多模态理解能力。该模型在综合性 OCR 能力评测基准 OCRBench 上达到开源社区的最佳水平,甚至在场景文字理解方面实现接近 Gemini Pro 的性能。

MiniCPM-V 2.0 值得关注的特性包括:

  1. **领先的 OCR 和多模态理解能力。**MiniCPM-V 2.0 显著提升了 OCR 和多模态理解能力,场景文字理解能力接近 Gemini Pro,在多个主流评测基准上性能超过了更大参数规模(例如 17-34B)的主流模型。

  2. **可信行为。MiniCPM-V 2.0 是第一个通过多模态 RLHF 对齐的端侧多模态大模型(借助 RLHF-V [CVPR’24] 系列技术。**该模型在 Object HalBench 达到和 GPT-4V 相仿的性能。

  3. 任意长宽比高清图像高效编码。 MiniCPM-V 2.0 可以接

http://www.lryc.cn/news/521971.html

相关文章:

  • 国产linux系统(银河麒麟,统信uos)使用 PageOffice 实现后台批量生成PDF文档
  • Python 扫描枪读取发票数据导入Excel
  • 电源自动测试系统中的ate定制化包含哪些内容?
  • 人工智能-机器学习之多分类分析(项目实战二-鸢尾花的多分类分析)
  • 多包单仓库(monorepo)实现形式
  • Java冒泡排序算法之:变种版
  • AAPM:基于大型语言模型代理的资产定价模型,夏普比率提高9.6%
  • Spring常见知识
  • 计算机网络的五层协议
  • Bluetooth LE Audio - 蓝牙无线音频新应用 (上)
  • 如何快速准备数学建模?
  • 如何在linux系统上完成定时开机和更新github端口的任务
  • Jupyter notebook中运行dos指令运行方法
  • 探索 Linux:(一)介绍Linux历史与Linux环境配置
  • 前端【2】html添加样式、CSS选择器
  • Yolov8 目标检测剪枝学习记录
  • LeDeCo:AI自动化排版、设计、美化海报
  • Flink CDC解决数据库同步,异常情况下增量、全量问题
  • 01、flink的原理和安装部署
  • 美图脱掉“复古外衣”,在AI浪潮中蜕变
  • sqlalchemy The transaction is active - has not been committed or rolled back.
  • 47.数据绑定的PropertyChanged C#例子 WPF例子
  • 网络安全 | Web安全常见漏洞和防护经验策略
  • Agent一键安装,快速上手Zabbix监控!
  • Edge Scdn是什么,它如何提升网站安全性与访问速度?
  • ubuntu20.04 docker安装
  • 初始C#.
  • js高亮文本
  • 解决SpringBoot 健康检测接口 actuator/health 访问一直卡着,但 actuator/info等其他接口能正常访问的问题
  • KVM创建ubuntu20.04虚机,部署K8S,再克隆出二份,做为Worker节点加入集群,通过Helm创建2个Pod,让它们之间通过域名互访