当前位置: 首页 > news >正文

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

本文是LLM系列文章,针对《An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA》的翻译。

GPT-3对基于小样本知识的VQA的实证研究

  • 摘要
  • 引言
  • 相关工作
  • 方法
  • OK-VQA上的实验
  • VQAv2上的实验
  • 结论

摘要

基于知识的视觉问答(VQA)涉及回答需要图像中不存在的外部知识的问题。现有的方法首先从外部资源中检索知识,然后对所选知识、输入图像和问答预测进行推理。然而,这种两步走的方法可能会导致失配,从而潜在地限制VQA性能。例如,检索到的知识可能是嘈杂的,与问题无关,并且在推理过程中重新嵌入的知识特征可能偏离其在知识库(KB)中的原始含义。为了应对这一挑战,我们提出了PICa,这是一种简单而有效的方法,通过使用图像字幕来提示GPT3,用于基于知识的VQA。受GPT-3在知识检索和问答方面的能力的启发,我们不再像以前的工作那样使用结构化知识库,而是将GPT-3视为一种隐式和非结构化知识库来联合获取和处理相关知识。具体来说,我们首先将图像转换为GPT-3能够理解的字幕(或标签),然后通过提供几个上下文中的VQA示例,调整GPT-3以以多样本的方式解决VQA任务。我们通过仔细研究来进一步提高性能:(i)什么样的文本格式最能描述图像内容,以及(ii)如何更好地选择和使用上下文中的示例。PICa解锁了GPT-3在多模式任务中的首次使用。通过仅使用16个示例,PICa在OK-VQA数据集上以绝对值+8.6分的优势超过了监督的现有技术。我们还在VQAv2上对PICa进行了基准测试,其中PICa也表现出了不错的小样本性能。

引言

相关工作

方法

OK-VQA上的实验

VQAv2上的实验

结论

我们提出了PICa,这是一种使用GPT-3进行基于小样本的VQA的方法。PICa没有使用明确的结构化知识库来检索和推理外部知识,而是通过提示GPT-3来联合获取和处理相关知识。它继承了GPT-3强大的小样本能力,并以显著的优势超过了OK-VQA上的监督技术。分析表明,我们的方法隐含地获取了相关知识来回答问题。

http://www.lryc.cn/news/163368.html

相关文章:

  • 2023高教社杯数学建模B题思路分析 - 多波束测线问题
  • 02-docker network
  • 栈和队列经典笔试题
  • No5.9:多边形内角和公式
  • EditPlus 配置python 及Anaconda中的python
  • linux 编译 llvm + clang
  • Mybatis 框架 ( 四 ) QueryWrapper
  • 数据结构和算法之二分法查找
  • 系统日期如何在页面展示,框架是react或者vue3
  • (二十二)大数据实战——Flume数据采集之故障转移案例实战
  • 前端小案例3:Flex弹性布局行内元素宽度自适应
  • 纳尼?小说还要用看的?这可以听!无广!
  • 【微服务部署】四、Jenkins一键打包部署NodeJS(Vue)前端项目步骤详解
  • 【前端】禁止别人调试自己的前端页面代码
  • UDP的可靠性传输
  • 科研笔记:TPAMI submission guideline
  • Python文件操作(02):打开文件、读文件、关闭文件
  • C语言访问Mysql
  • 软件设计师(十)网络与信息安全基础知识
  • 蓝桥杯官网填空题(换零钞)
  • JavaFX之Stage
  • 深度翻页导出导致慢SQL,mysqlCPU飙升优化方案
  • 小谈设计模式(1)—总序
  • 【c++】stringstream基础:实现数据类型转换和字符串分割
  • Java基础学习笔记-5
  • 合同交付类项目如何高效管理?
  • 两性养生网站源码 生活类减肥网站源码 健康网模板源码 支持QQ登录和百度主动推送
  • CentOS7安装Jenkins(更改默认运行的端口号8080->16060)
  • Java开发之Mysql【面试篇 完结版】
  • 【实战】十二、自动化测试 —— React17+React Hook+TS4 最佳实践,仿 Jira 企业级项目(二十九)