当前位置: 首页 > news >正文

多模态论文阅读之BLIP

BLIP泛读

  • Title
  • Motivation
  • Contribution
  • Model

Title

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Motivation

  1. 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢?
  2. 数据角度:SOTA的方法(如CLIP、ALBEF等)都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升,但本文的研究表明,对于视觉语言学习来说,有噪声的网络文本是次优(suboptimal)的。

Contribution

  1. Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型,再通过一些方法获得一个更干净的数据集,能不能训练处一个更好的模型。
  2. Unified:caption filter

Model

在这里插入图片描述

http://www.lryc.cn/news/217004.html

相关文章:

  • OpenCV实战——OpenCV.js介绍
  • qt5工程打包成可执行exe程序
  • Qt之基于QCustomPlot绘制直方图(Histogram),叠加正态分布曲线
  • 232.用栈实现队列
  • C51--项目--感应开关盖垃圾桶
  • 基于单片机设计的太阳能跟踪器
  • 【踩坑及思考】浏览器存储 cookie 最大值超过 4kb,或 http 头 cookie 超过限制值
  • 竞赛选题 深度学习实现行人重识别 - python opencv yolo Reid
  • SpringCloud Gateway实现请求解密和响应加密
  • IDEA创建Springboot多模块项目
  • React:JSX语法入门
  • AI大模型架构师专家,你会问什么来测试我的水平,如何解答上述问题,学习路径是什么
  • Dev-C调试的基本方法2-1
  • Linux 调试 (objdump/strace/strings)
  • CAS 单点登录详解
  • tbh常用的绘图快捷键
  • Android-Framework 清除应用用户数据,不清除权限
  • CS认证办理流程,CS认证好处
  • macOS 安装brew
  • H5: 使用Web Audio API播放音乐
  • Parasoft C/C++test:汽车网络安全ISO 21434最佳实践
  • 如何卸载干净 IDEA(图文讲解)windows和Mac教程
  • Docker搭建Gitlab
  • STM32F4X SDIO(四) SDIO控制器
  • 【flink】Task 故障恢复详解以及各重启策略适用场景说明
  • 一个计算机高手的成长3
  • 2023应届生能力考试含解析(Java后端开发)——(1)
  • Ansible中的任务执行控制
  • 利用maven的dependency插件分析工程的依赖
  • 【广州华锐互动】VR野外求生技能学习,让你感受真实的冒险之旅!