当前位置: 首页 > news >正文

Speculative RAG:为知识密集型数据服务的RAG

论文链接
RAG的一个棘手问题是不知道该召回多少chunk,少了可能丢信息,多了会引入噪声信息。虽然有self-reasoning等自我反思的解决办法,但是整体链路太长,延迟高,不利于工业落地。

虽然无法面对整个服务场景,但是对于知识密集型数据,可以用Speculative RAG解决。所谓知识密集,即你要问的问题只集中在少数几个chunk里,不需要长篇大论地找答案,例如一个章节就解决一个事,你要问这个事,把这个章节拿来就全解决了。

对于这种数据,Speculative RAG加速的办法是:(举个例子)把72b或32b的大模型换成多个7b模型,称为draft。RAG检索到100个chunk,先用k-means把100个chunk聚类,然后随机地把各个桶里的信息分到每个draft模型,多个draft模型并行推理。
!!!因为用了小模型,所以必须保证问题足够简单。
并行推理的结果作为draft被后续模型评测,例如忠诚度、相关度,评测结果最好的作为最终答案。

http://www.lryc.cn/news/437229.html

相关文章:

  • [Go]-抢购类业务方案
  • Android 源码多个Launcher设置默认Launcher
  • 计算机毕业设计 网上体育商城系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试
  • 深度学习中实验、观察与思考的方法与技巧
  • 记一次 FastDFS 存储节点迁移:基于 scp 的实践与经验分享
  • http连接github远程仓库密码问题解决办法
  • LAMP环境下项目部署
  • Visual Studio 2022从外部引入dll导致的问题
  • 大模型从失败中学习 —— 微调大模型以提升Agent性能
  • 10.web应用体系以及windows网络常见操作应用
  • 【数据结构与算法 | 灵神题单 | 前后指针(链表)篇】力扣19, 61,1721
  • 机器学习之实战篇——MNIST手写数字0~9识别(全连接神经网络模型)
  • ICLR2024: 大视觉语言模型中对象幻觉的分析和缓解
  • 数据库系统 第54节 数据库优化器
  • 微服务杂谈
  • 【Pandas操作2】groupby函数、pivot_table函数、数据运算(map和apply)、重复值清洗、异常值清洗、缺失值处理
  • 如何分辨IP地址是否能够正常使用
  • Sqoop 数据迁移
  • 【数据结构】排序算法系列——希尔排序(附源码+图解)
  • c++(继承、模板进阶)
  • 【机器学习】从零开始理解深度学习——揭开神经网络的神秘面纱
  • WebLogic 笔记汇总
  • leetcode:2710. 移除字符串中的尾随零(python3解法)
  • Python GUI入门详解-学习篇
  • QT5实现https的post请求(QNetworkAccessManager、QNetworkRequest和QNetworkReply)
  • vscode 使用git bash,路径分隔符缺少问题
  • F12抓包10:UI自动化 - Elements(元素)定位页面元素
  • android 删除系统原有的debug.keystore,系统运行的时候,重新生成新的debug.keystore,来完成App的运行。
  • SQL入门题
  • Python实战:实战练习案例汇总