当前位置：首页 > news >正文

多模态论文阅读之BLIP

news 2025/8/22 3:15:55

BLIP泛读

Title
Motivation
Contribution
Model

Title

BLIP: Bootstrapping Language-Image Pre-training for Uniﬁed Vision-Language Understanding and Generation

Motivation

模型角度：clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢？
数据角度：SOTA的方法（如CLIP、ALBEF等）都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升，但本文的研究表明，对于视觉语言学习来说，有噪声的网络文本是次优（suboptimal）的。

Contribution

Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型，再通过一些方法获得一个更干净的数据集，能不能训练处一个更好的模型。
Unified:caption filter

Model

在这里插入图片描述

http://www.lryc.cn/news/217004.html

相关文章：

OpenCV实战——OpenCV.js介绍

qt5工程打包成可执行exe程序

Qt之基于QCustomPlot绘制直方图（Histogram），叠加正态分布曲线

232.用栈实现队列

C51--项目--感应开关盖垃圾桶

基于单片机设计的太阳能跟踪器

【踩坑及思考】浏览器存储 cookie 最大值超过 4kb，或 http 头 cookie 超过限制值

竞赛选题深度学习实现行人重识别 - python opencv yolo Reid

SpringCloud Gateway实现请求解密和响应加密

IDEA创建Springboot多模块项目

React：JSX语法入门

AI大模型架构师专家，你会问什么来测试我的水平，如何解答上述问题，学习路径是什么

Dev-C调试的基本方法2-1

Linux 调试 (objdump/strace/strings)

CAS 单点登录详解

tbh常用的绘图快捷键

Android-Framework 清除应用用户数据，不清除权限

CS认证办理流程,CS认证好处

macOS 安装brew

H5: 使用Web Audio API播放音乐

Parasoft C/C++test：汽车网络安全ISO 21434最佳实践

如何卸载干净 IDEA（图文讲解）windows和Mac教程

Docker搭建Gitlab

STM32F4X SDIO(四) SDIO控制器

【flink】Task 故障恢复详解以及各重启策略适用场景说明

一个计算机高手的成长3

2023应届生能力考试含解析（Java后端开发）——（1）

Ansible中的任务执行控制

利用maven的dependency插件分析工程的依赖

【广州华锐互动】VR野外求生技能学习，让你感受真实的冒险之旅！