当前位置: 首页 > news >正文

Dify私有化知识库搭建并通过ChatFlow智能机器人使用知识库的详细操作步骤

1.配置嵌⼊模型和reranker模型

右上角个人头像—>设置—>模型供应商—>模型列表

硅基流动里面打开重排序模型BAAI/bge-reranker-v2-m3和嵌入模型BAAI/bge-m3,也可以用netease-youdao/bce-reranker-base_v1netease-youdao/bce-embedding-base_v1都是免费的

为什么选择这两个模型:因为是免费的,大家可以选择自己的模型

2.创建知识库

STEP1:选择数据源

这里我选择一个文本

Notion国内很少用

Web网页是通过爬虫读取网页内容

 上传好文件后,点击【下一步】

 STEP2:文本分段与清洗

  • 分段设置

为解决长文本表示问题,RAG系统普遍采⽤分段策略

普通分块:

通过固定⻓度分割,如每段500字,在结合Embedding模型将⽂本转换为向量

优点:

1. 灵活性⾼:适⽤于通⽤⽂档,⽀持多源数据,如PDF、Word、网页等

2.检索效率平衡:混合检索结合向量与关键字匹配,召回率提升30%

3.通⽤知识库构建(如企业文档管理)和需要快速响应混合检索的问答系统

缺点:

1.上下文割裂:固定长度分块可能导致语义不连贯
2. 资源消耗较大:⾼质量模式依赖Embedding模型,需较高算力

父子分段:

用户可以自己定义分块层级,例如将文档按章节划分⽗块,再对每章内容进⾏子块分割。允许用户⼿动调整分块大小和清洗规则

优点:

1.语义连贯性:层级结构保留上下⽂关系

2.灵活可控:适⽤于结构化⽂档(如技术⼿册、合同)

3.适⽤法律合同解析(按条款分层)和学术论文检索(按摘要、正文、参考⽂献分级)

缺点:

1.开发成本⾼:需人工标注或规则设计

2.扩展性差:难以适应⾮结构化数据

  • 索引方式

下拉选择BAAI/bge-m3,索引方式选择推荐的 “高质量”

  • 检索设置

检索方式选择推荐的 “混合检索”

选择重排序模型:BAAI/bge-reranker-v2-m3

调整Top k:是指重排序后选择前几个,一般选择前3个就行,3个之后关联度很低

Score 阈值:是指重排序过程中给检索结果打的分,在0-1之间,这个设置的意思是指低于多少分的检索结果不选,默认0.5,可以自己设置。

STEP3:保存并处理

至此设置已经完成,点击【保存并处理】,dify知识库会根据之前的设置完成文档分段,然后将每段数据向量化后存入数据库

 

 点击 “前往文档”,可以跳转到文档列表,可以再次新增文档,还可以重命名,归档、删除文档

 回到知识库tab页,可以看到已经添加的知识库

 点击【设置】可以设置知识库名称

3.召回测试

在文档列表左侧有 “召回测试”入口

4.创建ChatFlow问答机器人

  • 新建ChatFlow

新建的Flow有默认节点,如下图

  •  新增节点:知识检索

  •  设置知识检索节点

添加知识库:

 召回设置:

 

  • 设置大模型节点

上下文:选择知识检索结果

 SYSTEM里要引用上下文

  •  预览

完成上面的设置后,可以通过预览看下效果:

http://www.lryc.cn/news/576794.html

相关文章:

  • AlpineLinux安装部署MariaDB
  • 怎样优化HDFS的网络传输
  • WireShark网络取证分析第一集到第五集和dvwa靶场环境分析漏洞
  • TCP/IP模型、OSI模型与C# Socket编程详解
  • xcode-XCTest
  • 领域驱动设计(DDD)【28】之实践或推广DDD的学习
  • leetcode437-路径总和III
  • 什么是RAG检索生成增强?
  • #Redis分布式缓存# ——1.Redis持久化
  • 零基础学习RabbitMQ(5)--工作模式(1)
  • 非常有科技感的wpf GroupBox 控件
  • C/C++数据结构之动态数组
  • 介绍Windows下的由Sysinternals开发的一些小工具
  • 鸿蒙 Swiper 组件解析:轮播交互与动画效果全指南
  • [Android]ANR的线程
  • promise深入理解和使用
  • Bugku——WEB篇(持续更新ing)
  • 【windows如何使用rsync支持断点续传】
  • OSPF(开放最短路径优先)
  • 【记录】服务器多用户共享Conda环境——Ubuntu24.04
  • Windows环境下C语言汇编语言编辑器及环境安装
  • 提升JavaScript性能的六大关键策略
  • 博图SCL编程利器:CASE OF 语句详解与应用指南之设备运行模式选择框架
  • [面试] 手写题-数组转树
  • VS2022-动静态库
  • (LeetCode 面试经典 150 题 ) 134. 加油站 (贪心)
  • MATLAB GUI界面设计 第七章——高级应用
  • 大数据Hadoop之——安装部署hadoop
  • Wpf布局之StackPanel!
  • 【Java EE初阶 --- 多线程(进阶)】锁策略