当前位置: 首页 > news >正文

SGPT论文阅读笔记

在这里插入图片描述

  • 这是篇想要用GPT来提取sentence embedding的工作,提出了两个框架,一个是SGPT-BE,一个是SGPT-CE,分别代表了Bi-Encoder setting和Cross-Encoder setting。
  • CE的意思是在做阅读理解任务时,document和query是一起送进去,中间加个SEP token来做的,典型的是BERT。而GPT一般不是,但作者觉得GPT也可以是。也就是说,如果有k个document和一个新的query,需要把这个query和这k个document分别concate在一起,重新提取信息,走k次。
  • 而BE的意思是,document和query单独提取信息。每段document用pooling来提取一个vector即可,query单独提取一个vector,然后算相似度,就能知道document中是否有query要的信息。
  • BE的模型提出了新的pooling method,用的是position-weighted mean pooling,还有bias-only fine-tuning。
  • position-weighted mean pooling的意思是,前面的token由于mask的存在,注意力的时候看不到后面的token,所以要给低一点的权重,后面的token给高一点的权重,就按1 2 3 4 5这样随位置单调线性递增的权重即可,如下:
    在这里插入图片描述
http://www.lryc.cn/news/384157.html

相关文章:

  • 虚拟机与主机的网络桥接
  • urfread刷算法题day1|LeetCode2748.美丽下标的数目
  • 面向对象修炼手册(四)(多态与空间分配)(Java宝典)
  • 基于UDP的网络聊天室(多线程实现收和发消息)
  • 【脚本工具库】随机抽取数据 - 图像和标签对应(附源码)
  • 【python】eval函数
  • 实战|记一次java协同办公OA系统源码审计
  • 浅浅谈谈如何利用Javase+多线程+计算机网络的知识做一个爬CSDN阅读量总访问量的程序
  • Vscode 中launch.json与tasks.json文件
  • C#基于SkiaSharp实现印章管理(2)
  • 大二C++期末复习(自用)
  • 重大进展!微信支付收款码全场景接入银联网络
  • msvcr110.dll丢失的解决方法,亲测有效的几种解决方法
  • SUSE Linux 15 sp5上Nginx安装配置升级
  • 突破Web3红海,DePIN如何构建创新生态系统?
  • 裸机与操做系统区别(RTOS)
  • 详解 ClickHouse 的分片集群
  • AI问答-医疗:什么是“手术报台”
  • S-Clustr(影子集群)V3 高并发,去中心化,多节点控制
  • 支持WebDav的网盘infiniCloud(静读天下,Zotero 等挂载)
  • Linux命令行导出MySQL数据库备份并压缩
  • 二叉树的广度优先搜索(层次遍历)
  • AU音频重新混合音频,在 Adobe Audition 中无缝延长背景音乐,无缝缩短BGM
  • 11-Django项目--Ajax请求二
  • 代码评审——Java占位符%n的处理
  • 超低排放标准
  • Day15 —— 大语言模型简介
  • 使用了CDN,局部访问慢,如何排查
  • 谈谈SQL优化
  • 力扣随机一题 6/26 哈希表 数组 思维