当前位置: 首页 > news >正文

RAFT: Adapting Language Model to Domain Specific RAG

今天来介绍下伯克利大学3.15日新发的一篇paper,RAFT: Adapting Language Model to Domain Specific RAG

主要研究了如何构造训练数据来微调你的LLM,从而在LLM在垂直领域的RAG中表现更好。并且开源了代码:GitHub - ShishirPatil/gorilla: Gorilla: An API store for LLMs

主要工作:

1、Retrieval Augmented Fine Tuning (RAFT):RAFT是一种训练方法,旨在通过微调来适应特定领域的开卷考试设置,即领域特定的RAG。
2、区分文档类型:在训练数据中,区分“oracle”文档(包含问题答案的文档)和“distractor”文档(不包含答案相关信息的文档)。
3、链式思维风格答案:RAFT训练模型生成包含链式思维的答案,这些答案引用了上下文中的原始文档,并详细解释了如何基于引用得出结论。
4、处理干扰文档:在训练过程中,模型被训练以在存在干扰文档的情况下回答问题,这有助于提高模型在测试时对检索结果的鲁棒性。

 

训练数据是如何构造的?

其实作者在论文中没有明说,只是给了一个示例。笔者看代码搞清楚了这一过程。现在阐述如下。

1.对于一个pdf,先把pdf切分成chunk,也就是产生多个doc。

2.利用chatgpt4为每一个doc,生成多个query。

def generate_instructions_gen(chunk: Any, x: int = 5) -> list[str]:"""Generates `x` questions / use cases for `chunk`. Used when the input document is of general types `pdf`, `json`, or `txt`."""response = cli
http://www.lryc.cn/news/329121.html

相关文章:

  • 第十五届蓝桥杯第三期模拟赛第十题 ← 上楼梯
  • 第四题:星期一
  • Mamba: Linear-Time Sequence Modeling with Selective State Spaces(论文笔记)
  • 2024蓝桥杯每日一题(区间DP)
  • LeetCode-2952. 需要添加的硬币的最小数量【贪心 数组 排序】
  • 新书速递——《可解释AI实战(PyTorch版)》
  • 国产数据库中统计信息自动更新机制
  • 【C++】入门C++(中)
  • javaIO
  • 睿尔曼超轻量仿人机械臂之复合机器人底盘介绍及接口调用
  • 用JSch实现远程传输文件并打包成jar
  • 2023年第十四届蓝桥杯大赛软件类省赛C/C++研究生组真题(代码完整题解)
  • 力扣刷题Days28-第二题-11.盛水最多的容器(js)
  • 文生图大模型三部曲:DDPM、LDM、SD 详细讲解!
  • 算法学习——LeetCode力扣动态规划篇10(583. 两个字符串的删除操作、72. 编辑距离、647. 回文子串、516. 最长回文子序列)
  • TASKPROMPTER
  • C之易错注意点转义字符,sizeof,scanf,printf
  • 等级保护测评无补偿因素的高风险安全问题判例(共23项需整改)
  • JavaScript笔记 09
  • 操作教程|在MeterSphere中通过SSH登录服务器的两种方法
  • Swashbuckle.AspNetCore介绍
  • 【Spring】通过Spring收集自定义注解标识的方法
  • 基于深度学习的图书管理推荐系统(python版)
  • MATLAB 点云随机渲染赋色(51)
  • 通过一篇文章让你完全掌握VS和电脑常用快捷键的使用方法
  • ChatGPT指引:借助ChatGPT撰写学术论文的技巧
  • 魔改一个过游戏保护的CE
  • rust嵌入式开发之await
  • UE4_碰撞_碰撞蓝图节点——Line Trace For Objects(对象的线条检测)
  • 抽象类和接口的简单认识