当前位置: 首页 > news >正文

StreamingLLM - 处理无限长度的输入

文章目录

    • 关于 StreamingLLM
    • 使用


关于 StreamingLLM

Efficient Streaming Language Models with Attention Sinks

  • GitHub : https://github.com/mit-han-lab/streaming-llm
  • 论文:https://arxiv.org/abs/2309.17453

在流媒体应用程序(如多轮对话)中 部署大型语言模型(LLM)是迫切需要的,但这带来了两个主要挑战。
首先,在解码阶段,缓存先前 tokens’ Key and Value(KV)会消耗大量内存。
其次,流行的LLM不能推广到 比训练序列长度更长的文本。

Window attention,只缓存最新的KV,是一种自然的方法——但我们表明,当文本长度超过缓存大小时,它会失败。
我们观察到一个有趣的现象,即注意力下沉,即保持初始 tokens 的KV,将在很大程度上恢复窗口注意力的表现。

在本文中,我们首先证明了 attention sink 的出现是由于对作为“sink”的初始标记的

http://www.lryc.cn/news/183322.html

相关文章:

  • [Linux 命令] nm 详解
  • 好文学作品的鉴赏标准
  • 智慧公厕:将科技融入日常生活的创新之举
  • ROS(0)命令及学习资源汇总
  • NodeMCU ESP8266开发流程详解(图文并茂)
  • 【最终版】tkinter+matplotlib实现一个强大的绘图系统
  • Postman使用实例
  • 【ES的优势和原理及分布式开发的好处与坏处】
  • Autosar诊断实战系列23-CanTp半/全双工及相关工程问题思考
  • 【Pandas】数据分组groupby
  • 【图像处理GIU】图像分割(Matlab代码实现)
  • Java中的锁与锁优化技术
  • 布局与打包
  • UVa11324 - The Largest Clique
  • 【Linux】TCP的服务端(守护进程) + 客户端
  • 1.7. 找出数组的第 K 大和原理及C++实现
  • 基于微信小程序的付费自习室
  • 纪念在CSDN的2048天
  • 云原生Kubernetes:简化K8S应用部署工具Helm
  • qml保姆级教程五:视图组件
  • 2310d编译不过
  • CleanMyMac X4.14.1最新版本下载
  • 芯驰D9评测(3)--建立开发环境
  • 阿里云服务器IP地址查询方法(公网IP和私网IP)
  • 第47节——使用bindActionCreators封装actions模块
  • QT、c/c++通过宏自动判断平台
  • 对比表:阿里云轻量应用服务器和服务器性能差异
  • 中国1km分辨率月最低温和最高温度数据集(1901-2020)
  • EasyX图形库note4,动画及键盘交互
  • C++设计模式-原型(Prototype)