当前位置: 首页 > news >正文

Adapting Language Models to Compress Contexts

本文是LLM系列文章,针对《Adapting Language Models to Compress Contexts》的翻译。

使语言模型适应上下文压缩

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验
  • 5 上下文学习
  • 6 压缩检索语料库实现高效推理
  • 7 结论
  • 不足

摘要

1 引言

2 相关工作

3 方法

4 实验

5 上下文学习

6 压缩检索语料库实现高效推理

7 结论

我们引入了一种训练策略,用于将预训练的LMs调整为自动压缩器,自动压缩器将上下文递归压缩为摘要向量。我们的实验表明,摘要向量保留了重要的上下文信息,用于改进语言建模、上下文演示中的编码以及评估文章与用户查询的相关性。这表明,我们的无监督训练策略可以带来多用途的应用。摘要矢量可以预先计算、缓存和重复使用。这承诺通过减小注意力窗口的大小来提高实际的效率。未来还有大量工作要做,将自动压缩器扩展到更大的模型,并提高摘要向量的质量,以进一步缩小差距,同时充分关注长期上下文。

不足

  • 我们只将AutoCompressors应用于参数高达2.7B的OPT型号。未来的工作需要确定自动压缩器在大型模型中的表现,但随着摘要向量维度的增长,每个向量可以保留更多信息。我们还质疑,其他具有不同体系结构特征的预训练模型族,如未绑定的输入输出嵌入,是否更难适应自动压缩器。
  • 我们的研究结果表明,摘要向量忽略了一些通过充分关注可以获得的有用信息。此外,模型并不总是从增加汇总向量的数量中受益。我们怀疑,用于有效学习摘要向量的训练信号可能会受到预训练模型的限制,该模型非常善于根据当前片段中的纯文本标记进行预测。未来的工作需要改进这种优化。
  • 摘要积累仍然会随着分段数量的增加而导致二次复杂度,尽管其速率远低于完全注意力。未来的工作可能会探索更有效地组合许多摘要向量的方法。
http://www.lryc.cn/news/138434.html

相关文章:

  • Kubernetes(K8S)使用PV和PVC做存储安装mysql
  • Ansible Playbook 常用变量
  • 0103水平分片-jdbc-shardingsphere-中间件
  • Vue2.0+webpack 引入字体文件(eot,ttf,woff)
  • Eureka:CAP原则及对比Zookeeper
  • WPF入门到精通:3.MVVM简单应用及全局异常处理
  • Springboot+mybatis-plus+dynamic-datasource+Druid 多数据源 分布式事务
  • 673. 最长递增子序列的个数
  • Android12之ABuffer数据处理(三十四)
  • whisper 语音识别项目部署
  • 实例044 在关闭窗口前加入确认对话框
  • 子查询和事务隔离以及用户管理
  • uniapp 滚动到指定元素的位置(锚点)
  • Spring AOP 的 afterReturing 返回值是否能修改问题
  • MyBatis分页插件PageHelper的使用及特殊字符的处理
  • [语音识别] 基于Python构建简易的音频录制与语音识别应用
  • Matlab彩色图像转索引图像
  • 测试框架pytest教程(11)-pytestAPI
  • Docker自学:利用FastAPI建立一个简单的web app
  • 微调bert做学术论文分类(以科大讯飞学术论文分类挑战赛为例)
  • Springboot中sharding-jdbc的API模式并使用自定义算法
  • MySQL回表是什么?哪些情况下会回表
  • VR、AR、MR 傻傻分不清楚?区别的底层逻辑?
  • VScode运行C语言出现的调试问题 lauch:program does not exist 解决方法
  • 云原生安全:保护现代化应用的新一代安全策略
  • mysql操作
  • 前端(十四)——DOM节点操作手册:你需要了解的一切
  • PDF怎么转成PPT文件免费?一个软件解决
  • 数据结构基础:P3-树(上)----编程作业02:List Leaves
  • 山西电力市场日前价格预测【2023-08-25】