当前位置: 首页 > news >正文

multimodel ocr dataset

InternLM-XComposer2-4KHD

InternLM-XComposer2-4KHD=
a light-weight Vision Encoder OpenAI ViT-Large/14+Large Language Model InternLM2-7B,

这篇论文采用的是一种动态分辨率的输入;
全图有一个global view,resize到336*336;
然后把图片resize再padding到336的整数倍划分成patch;
然后为了保留图片的2D信息,每一行结束的时候有个\n的分隔符,不同view之间有个sp分割符
在这里插入图片描述

在这里插入图片描述
We keep the ViT resolution as 336 × 336 and increase the input resolution with more patches. For the Dynamic Image Partition strategy, we use ‘HD-25’ for the pertaining

以下是一些预训练的策略:
实际pretrain的时候是HD-25,每4个token会concat和MLP成为一个token;
再finetune阶段是混合的策略,对于需要高分辨率的任务,比如说图表,就采用的分辨率HD55,,有一些是origin_sizeHD30,还有一些是HD25;
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
In terms of other OCR-related tasks, the
performance gain attributable to increased resolution is relatively minor.
在其他任务上,提升分辨率带来的收益比较小,但是对于ocr任务而言,提升分辨率带来的收益比较大;

全局试图的影响非常大:
在这里插入图片描述

在这里插入图片描述
当固定token数目的时候,是否使用换行符\n影响不大,但是tokens数目非常动态的时候,不使用换行符会导致性能降低;
在这里插入图片描述

在这里插入图片描述

InternVL-2.0的ocr数据集构建

https://internvl.github.io/blog/2024-07-02-InternVL-2.0/
在这里插入图片描述
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5bd5fd44bc5d447e82ecb5ba8f3438ec.png

How Far Are We to GPT-4V?

Closing the Gap to Commercial Multimodal Models with Open-Source Suites
在这里插入图片描述
训练ocr任务的时候会把visiual encoder和mlp都打开;

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Blip3

在这里插入图片描述
在这里插入图片描述
blip3训练的时候没有带上框,论文里面说可以训练下带上框的潜力;
200M的标注中有些包含框,有些没有包含框:
在这里插入图片描述

预训练数据越多,评测效果越好;
在这里插入图片描述
不同backbone的选择对于ocr任务的影响比较大;
在这里插入图片描述
使用不同的visual tokens数目带来的影响差别不大;
在这里插入图片描述
不同分辨率输入的结果:
在这里插入图片描述

http://www.lryc.cn/news/428359.html

相关文章:

  • 兼容并蓄,高效集成:EasyCVR视频综合接入能力助力多元化项目需求
  • linux 部署YUM仓库及NFS共享服务
  • LCD 显示字符
  • NOI2003 逃学的小孩 题解
  • 硬件服务器操作系统的选择:Linux 还是 Windows?
  • dataV组件使用——数据更新更新组件
  • solana合约编写
  • C++调用C#方法(附踩坑点)
  • 开源前端埋点监控插件Web-Tracing
  • 智慧排水远程监测系统物联网解决方案
  • 【SVN(Subversion)是一个版本控制系统】
  • leetcode108.把升序数组转换成二叉搜索树
  • 用QTdesigner制作自己的双目标定软件
  • MySQL:基础巩固-DDL
  • 翻译软件在医学中的应用
  • 政务大数据解决方案(六)
  • 【MATLAB机器人系统工具箱】【manipulatorRRT规划器】属性和方法解析
  • MySQL 多表连接(JOIN)
  • Opencv学习-直方图比较
  • 一文入门:正则表达式基础
  • 深入理解 `@DateTimeFormat` 和 `@JsonFormat` 注解
  • 微服务架构设计中的常见的10种设计模式
  • stripe Element 如何使用
  • vue3动态引入图片不显示问题
  • 【流媒体】RTMPDump—AMF编码
  • Mysql双主双从
  • 安卓主板_MTK联发科主板定制开发|PCBA定制开发
  • 结合GPT与Python实现端口检测工具(含多线程)
  • 数字媒体产业发展现状剖析,洞悉数字产业园的创新之举
  • PDF文件转换为HTML文件