当前位置: 首页 > news >正文

论文阅读:MultiUI 利用网页UI进行丰富文本的视觉理解

《HARNESSING WEBPAGE UIS FOR TEXT-RICH VISUAL UNDERSTANDING》
利用网页UI进行丰富文本的视觉理解

总结

  • grounding和QA部分的数据集占比较大、同时消融实验显示其作用相对较大,并且grounding部分作用和效果呈现scaling正相关
  • 提供了很多web数据处理成多模态训练集的prompt、思路等、提供了开源代码:https://neulab.github.io/MultiUI/

1、前言

  • 1M URLs
  • 2个平台
  • 3种能力:视觉理解和推理、文本识别、定位

在这里插入图片描述

  • 基于充分结构化的网页来合成多模态指令数据集

在这里插入图片描述

2、数据集构建

  • 数据集通过4步构造

在这里插入图片描述

  • 9个任务的具体设计【重点】

在这里插入图片描述

数据分布

  • grounding数据占 3M/7.3M ~ 41%,mobile的grounding占mobile数据的 47.8%
  • 其次占比最多的是 WebQA、ImgQA

在这里插入图片描述

  • Grounding和action的一些数据示例

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3、实验设置

  • 模型结构

在这里插入图片描述

  • 训练策略:两阶段训练

在这里插入图片描述

  • Benchmark

在这里插入图片描述

4、实验结果分析

  • GUI相关任务的实验结果
    • 没有把Seeclick模型在SSpot上的结果放出来(mobile-0.657);

在这里插入图片描述

  • GUI grounding的能力和数据集大小存在正相关关系
    在这里插入图片描述
  • 消融实验说明了 加入grounding数据集对于screenspot评测集的必要性

在这里插入图片描述

  • 两阶段训练效果更优、提升2点左右

在这里插入图片描述

http://www.lryc.cn/news/472523.html

相关文章:

  • 【云原生】云原生后端详解:架构与实践
  • MySQL覆盖索引
  • 「C/C++」C/C++ 之 循环结构详解
  • json-server的基本使用
  • 华为配置BFD状态与接口状态联动实验
  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-22
  • 理解消息队列
  • !什么,matlab也有网页版了
  • 安卓屏幕息屏唤醒
  • 类文件具有错误的版本 61.0, 应为 55.0
  • vue点击菜单,出现2个相同tab,啥原因
  • 【网络原理】——图解HTTPS如何加密(通俗简单易懂)
  • CentOS 修改服务器登录密码的完整指南
  • 【PnP】详细公式推导,使用DLT直接线性变换法求解相机外参
  • 怎样把书上的事件图改编成活动图-《分析模式》漫谈43
  • CodeFormer——基于代码本查找变换器的鲁棒盲人脸修复翻译
  • 监控场景下,视频SDK的应用策略
  • 前端面试必备!HTML 超实用考点全解析
  • 自动驾驶系统研发系列—避免事故的利器:AEB自动紧急制动系统详解
  • zabbix 6.0 监控clickhouse(单机)
  • Redis的RDB执行原理
  • 速度背!24下软考网工“经典100道母题来了”!
  • three.js 纹理(Texture)、深度纹理(DepthTexture)、视频纹理(VideoTexture)
  • 广东自闭症全托机构:提供高质量的康复服务
  • Nodejs安装配置及创建vue项目
  • 浅析正交投影矩阵和透视投影矩阵的推导
  • python四舍五入保留两位小数不足补0
  • Mybatis-15.动态SQL-if
  • gb28181-sip注册流程
  • WEBRTC教程:局域网怎么调试,http://172.19.18.101:8080 ,无法访问摄像头和麦克风,请检查权限