当前位置: 首页 > news >正文

[论文笔记]E5

引言

今天又带来一篇文本匹配/文本嵌入的笔记:Text Embeddings by Weakly-Supervised Contrastive Pre-training。中文题目是 基于弱监督对比预训练计算文本嵌入。

本篇工作提出了E5模型(EmbEddings from bidirEctional Encoder rEpresentations)。该模型以带弱监督信号的对比学习方式训练的。

总体介绍

文本嵌入是任意长度文本的低维(稠密)向量表示,在许多自然语言处理任务中起着关键作用,如大规模检索。尽管预训练语言模型像BERT和GPT可以产生科迁移的文本表示,但对于检索和文本匹配等任务来说,更希望得到单一向量嵌入的效率和多功能性更高。为了获得更好的文本嵌入,对比学习通常是增强文本对的序列级的首选框架。比如,GTR1和Sentence-T52使用监督数据集微调预训练模型,分别学习用于段落检索和语义文本相似的嵌入。

在本篇工作,作者学习一个高质量通用文本嵌入,称为E5。E5旨在提供强大的现成文本嵌入,适用于任何需要单一向量表示的任务,无论是零样本还是微调设置。为了完成这个目标,E5不依赖有限的标签数据或低质量的合成文本对,而是从CCPairs中对比训练嵌入。

作者选择一个简单对比学习方法ÿ

http://www.lryc.cn/news/211023.html

相关文章:

  • k8s 1.28版本:使用StorageClass动态创建PV,SelfLink 问题修复
  • 漏洞复现-dedecms文件上传(CVE-2019-8933)
  • vue分片上传
  • 【大数据Hive】hive 表数据优化使用详解
  • 京东平台数据分析(京东销量):2023年9月京东吸尘器行业品牌销售排行榜
  • 基于springboot实现休闲娱乐代理售票平台系统项目【项目源码+论文说明】计算机毕业设计
  • jvm对象内存划分
  • 网络原理之TCP/IP
  • Docker:数据卷挂载
  • 你会处理 go 中的 nil 吗
  • 高级深入--day42
  • mysql 计算两个坐标距离
  • String、StringBuffer、StringBuilder和StringJoiner
  • 【数据结构】插入排序
  • Photoshop使用笔记总目录
  • 最近面试遇到的高频面试题
  • 负载均衡有哪些算法,分别在nginx中如何配置?
  • Starknet开发工具
  • Unity地面交互效果——1、局部UV采样和混合轨迹
  • 基于STM32的示波器信号发生器设计
  • 案例分析大汇总
  • MVCC(Multi-Version Concurrency Control,多版本并发控制)
  • 嵌入式面试2(c相关)
  • 基于SSM的n省出口基地公共信息服务平台设计与实现
  • opencv dnn模块 示例(20) 目标检测 object_detection 之 yolor
  • 【队列的顺序表示,链式表示】
  • Pydantic 实践
  • 获取pandas中的众数
  • SOLIDWORKS Simulation2024仿真10大新功能
  • Java程序设计2023-第二次上机练习