当前位置: 首页 > news >正文

超越标注:合成数据引领下的文本嵌入技术革新

  • 论文:https://arxiv.org/pdf/2401.00368
  • 代码:https://github.com/microsoft/unilm/tree/master/e5
  • 机构:微软
  • 领域:嵌入模型
  • 发表:BAAI 2024

这篇论文的标题是《Improving Text Embeddings with Large Language Models》,由微软公司的Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei等作者撰写。论文介绍了一种新颖且简单的方法,使用大型语言模型(Large Language Models, LLMs)生成的合成数据,以获得高质量的文本嵌入(text embeddings),并且只需要不到1000步的训练即可完成。这种方法与现有方法相比,不需要构建复杂的多阶段预训练流程,也不依赖于手动收集的数据集,这些手动收集的数据集通常受到任务多样性和语言覆盖的限制。

摘要(Abstract):

  • 论文提出了一种使用合成数据和少于1k训练步骤获得高质量文本嵌入的方法。
  • 该方法不依赖于多阶段中间预训练和少量标记数据集的微调。
  • 使用专有的LLMs为93种语言生成了数十万个文本嵌入任务的多样化合成数据。
  • 通过标准对比损失对开源的仅解码器LLMs进行微调。
  • 实验表明,该方法在没有使用任何标记数据的情况下,在竞争性文本嵌入基准测试中取得了强大的性能。
  • 当使用合成数据和标记数据的混合进行微调时,模型在BEIR和MTEB基准测试上取得了新的最先进结果。

引言(Introduction):

  • 文本嵌入是自然语言的向量表示,广泛应用于各种自然语言处理(NLP)任务。
http://www.lryc.cn/news/414863.html

相关文章:

  • IT运维中,如何快速进行故障排查?(以银行APP交易故障为例)
  • 入门mem0.NET
  • 虚拟机(CentOS7)安装jenkins
  • 尚品汇-首页三级分类实现-nginx静态代理生成的静态页面(二十六)
  • 对象存储及其相关概念介绍
  • TypeScript 研发系列
  • 三维世界,一图打尽!Matplotlib带你玩转3D绘图,让数据跳舞的魔法棒!
  • 计算机常识与NOIP历史-CSP初赛知识点整理
  • 代码随想录算法训练营第二天 | 209. 长度最小的子数组、59. 螺旋矩阵 II
  • 鼻咽癌综述
  • 中国AI PC行业研究报告
  • Mybatis实战:图书管理系统(笔记)
  • win11 amd64 python安装matplotlib、pytorch报错记录
  • Python写UI自动化--playwright(等待页面加载机制)
  • 书籍将整数字符串转成整数值(5)0804
  • 【2024年华数杯C题老外游中国】(完整题解+代码+完整参考论文)
  • 全球氢化双酚A (HBPA)市场规划预测:2030年市场规模将接近1330亿元,未来六年CAGR为2.7%
  • 【C++】异常处理:深度解析与实战精髓,不容错过的编程秘籍
  • 智能指针的循环引用 是什么 怎么引起的
  • Stegdetect教程:如何用Stegdetect检测和破解JPG图像隐写信息
  • Co-Detr
  • 校园选课助手【1】-项目整体架构从此开始
  • 椭圆曲线加法运算
  • (STM32笔记)九、RCC时钟树与时钟 第一部分
  • fastjson-流程分析
  • Linux 命令安装
  • 清华和字节联合推出的视频理解大模型video-SALMONN(ICML 2024)
  • 从数据爬取到可视化展示:Flask框架与ECharts深度解析
  • 【jvm】类加载分几步
  • 使用Apache http client发送json数据(demo)