当前位置: 首页 > news >正文

【RAG论文】RAG中半结构化数据的解析和向量化方法

论文简介

论文题目:
《A Method for Parsing and Vectorization of Semi-structured Data used in Retrieval Augmented Generation》

论文链接:
https://arxiv.org/abs/2405.03989

代码:
https://github.com/linancn/TianGong-AI-Unstructure/tree/main

这篇论文提出了一种新方法,用于解析和向量化半结构化数据,以增强大型语言模型(LLMs)中的检索增强生成(RAG)功能。但是读下来感觉并不是很“新”,基本是常见文本解析的流程,不过通过论文效果图看起来不同文件解析效果还可以,并且公开了源码,大家可以借鉴下。

论文方案


这篇论文通过以下步骤解决提高大型语言模型(LLMs)在特定领域性能的问题:

  1. 数据准备:首先,将多种来源的数据(包括书籍、报告、学术文章和数据表)编译成.docx格式。.docx格式因其标准化、高质量的文本、易于编辑、广泛的兼容性和丰富的元数据内容而被选为处理和提取结构化数据的首选格式。
  2. 自动化解析和分割:使用基于深度学习的对象检测系统(如detectron2)将.docx文件分割为多个元素,包括标题、文本、图像、表格、页眉和页脚。然后,通过特定的数据清洗过程,进一步筛选和整理这些元素,以提高模型效率。
  3. 块化(Chunking):利用“Unstructured Core Library”中的chunk_by_title函数,将文档系统地分割成不同的子部分,将标题作为章节标记,同时保留文档的详细结构。
  4. 向量数据库构建:使用OpenAI的“text-embedding-ada-002”模型通过API生成与特定内容相对应的嵌入向量,并将这些向量存储在Pinecone的向量数据库中。这样配置的数据库能够进行相似性搜索,并且在数据存储容量上有显著优势。
  5. 实验和讨论:通过选取中英文的学术论文和书籍进行测试,展示了所使用方法和RAG技术的有效性。测试包括文本处理结果、图像处理结果和表格处理结果,以及在RAG环境下进行的零样本问答(Zero-shot Question Answering)结果。
  6. 结果评估:使用GPT 4.0处理选定的文档,并生成一系列问题,然后对这些问题进行评分,以客观衡量向量知识库在增强语言模型领域特定知识方面的有效性。

解析效果

  • 论文

  • 电子书

  • 图片

  • 表格

  • html

问答效果




论文代码

http://www.lryc.cn/news/347099.html

相关文章:

  • git提交代码异常报错error:bad signature 0x00000000
  • 【FFmpeg】调用ffmpeg库进行RTMP推流和拉流
  • Multisim 14 常见电子仪器的使用和Multisim的使用
  • 【2024高校网络安全管理运维赛】巨细记录!
  • Nuxt.js实战:Vue.js的服务器端渲染框架
  • 提高Rust安装与更新的速度
  • 【linux软件基础知识】内核代码中的就绪队列简化示例
  • 《C++学习笔记---初阶篇6》---string类 上
  • mysql中的页和行
  • Vim常用快捷键
  • 力扣题目汇总分析 利用树形DP解决问题
  • GO语言核心30讲 实战与应用 (第二部分)
  • linux设置挂载指定的usb,自动挂载
  • 简站WordPress主题
  • is和==的关系
  • 璩静是为了薅百度羊毛
  • Element ui input 限制只能输入数字,且只能有两位小数
  • 吃掉 N 个橘子的最少天数
  • JavaScript 之 toString()方法详解
  • PPMP_char3
  • VulkanSDK Demos vkcube 编译失败
  • (二)Jetpack Compose 布局模型
  • 【Oracle impdp导入dmp文件(windows)】
  • 代数结构:5、格与布尔代数
  • 如何使用DEEPL免费翻译PDF
  • Spring-全面详解
  • QT自适应界面 处理高DPI 缩放比界面乱问题
  • 序列到序列模型在语言识别Speech Applications中的应用 Transformer应用于TTS Transformer应用于ASR 端到端RNN
  • 【Linux】- Linux环境变量[8]
  • 前端笔记-day04