当前位置: 首页 > news >正文

『大模型笔记』基于LLM生成真实世界数据的合成问答数据!

基于LLM生成真实世界数据的合成问答数据!

文章目录

  • 一. 基于LLM生成真实世界数据的合成问答数据!
    • 1. 概述(Overview)
    • 2. 场景(Scenario)
      • 2.1. 概述
        • 2.1.1. 第1阶段:构建种子数据集(Stage 1. Constructing a seed dataset)
        • 2.1.2. 第2阶段:数据增强(可选)(Data Augmentation (Optional))
      • 2.2. 客户应用示例(Customer application examples)
  • 二. 第1阶段:构建种子数据集
    • 2.1. PDF
    • 2.2. CSV
  • 三. 第二阶段. 数据扩充(可选)
    • 3.1. [Evolve-Instruct(进化指令)](evolve-instruct/README.md)
    • 3.2. [GLAN (广义指令调优)](glan-instruct/README.md)
  • 四. 参考文献

本动手实验旨在通过演示如何从复杂的非结构化数据中创建或增强问答数据集,以缓解一些难题,基于真实场景假设。该示例旨在为开发人员和数据科学家以及相关领域的从业者提供分步指南,以便他们在一些指导下进行尝试。

一. 基于LLM生成真实世界数据的合成问答数据!

1. 概述(Overview)

对于大语言模型(LLM)或小型语言模型(SLM)的微调、RAG或评估,通常需要从真实世界的原始数据中生成问答格式的数据。然而,当需要从头创建数据集而非使用现成的数据集时,您将面临诸多挑战。

本次动手实验旨在通过展示 如何从复杂的非结构化数据中创建或增强问答数据集来减轻部分工作负担,并假设这是一个真实的场景。该示例旨在为开发者和数据科学家以及相关领域的从业者提供逐步指导,使他们在稍许帮助下也能尝试完成。

2. 场景(Scenario)

2.1. 概述

我们旨在通过微调或RAG来提高模型的性能,提供高质量的数据集。然而,没有预先存在的数据集;我们只有 PDF、CSV和TXT 等格式的未处理原始数据。这些原始数据包括

http://www.lryc.cn/news/424950.html

相关文章:

  • 一个使用Python和`scikit-learn`库实现KMeans聚类算法的简单示例
  • 记录一下vue2和vue3中如何配置keep-alive及写法上的差异
  • 面试题:Rabbitmq怎么保证消息的可靠性?
  • 性能测试工具之JMeter
  • SQL Zoo 9-.Window functions
  • 智能化清理C盘的方法 小白也可以轻松清理C盘了 不再担心误删文件
  • 在c#中常用的特性
  • Polars简明基础教程十二:可视化(二)
  • python 使用正则表达式判断图片路径是否是超链接
  • 【学习笔记】Day 14
  • 使用SSL认证访问操作手册
  • 网络协议 十一 ARP,RARP,icmp,websocket,webservice,HTTPDNS,FTP,邮件相关的协议, SMTP,POP,IMAP
  • 浏览器插件利器--allWebPluginV2.0.0.16-Stable版发布
  • 设计模式22-迭代器模式
  • 编程深水区之并发⑥:C#的线程池
  • KCTF 闯关游戏:1 ~ 7 关
  • 【海贼王航海日志:前端技术探索】一篇文章带你走进JavaScript(二)
  • 鸿蒙内核源码分析(进程管理篇) | 谁在管理内核资源?
  • SQLALchemy 自动从数据库中映射
  • C++ stack与queue的使用与简单实现
  • 【CS.DB】数据库-关系型数据库-MySQL-3.3.创建和管理表
  • Ceph分布式存储系统的搭建与使用
  • 通过Redsocks将Kali Linux的流量进行代理
  • 基于java五台山景点购票系统(源码+论文+部署讲解等)
  • 基于springboot的网上服装商城
  • QT、C++简单界面设计
  • 代码随想录算法训练营43期 | Day 10——栈与队列part1
  • Java中常用的设计模式
  • leetcode 11-20(2024.08.15)
  • C语言整数溢出的问题