当前位置: 首页 > news >正文

Langchain CharacterTextSplitter无法分割文档问题

在使用Langchain的文档分割器时,使用CharacterTextSplitter拆分文档是,发现返回的文档根本没有变化,即使设置了chunk_size,返回的大小也不符合参数设置。
在这里插入图片描述
CharacterTextSplitter设置了150,但是根本没有处理,长度减少单纯是因为去掉了一些开头和末尾的空格。

点进CharacterTextSplitter看一看,只重写了split_text方法。
在这里插入图片描述
再点进去TextSplitter看一眼

首先是把文档拆开,内容单词放在列表里,是一个存放字符串的列表。
在这里插入图片描述
然后使用create_documents来处理拆分工作。
在这里插入图片描述
这里使用了CharacterTextSplitter内重写的拆分方法,我们看一看他是怎么拆分的
在这里插入图片描述
就是根据选择的拆分字符,拆分成小块后,然后组合到chunk_size那么大,所以如果一开始的拆分就比chunk_size大,那这个拆分根本就不会起作用!

我的建议是使用RecursiveCharacterTextSplitter,可以正确地拆分较大的文档,拆分成预先定义的大小以及重合方式。
在这里插入图片描述

http://www.lryc.cn/news/460805.html

相关文章:

  • ros service不走是为什么
  • 量子计算机的原理与物理实现
  • SQL Server 常用关键词语法汇总
  • 软件测试工程师面试整理 —— 操作系统与网络基础!
  • 网络安全防御策略:通过限制IP访问提升服务器安全性
  • Multiprocessing出错没有提示was skipped without notice in python
  • 调整应用窗口透明度
  • 启智畅想集装箱号码智能识别原理,OCR识别应用
  • React基础知识
  • Java基础:面向对象编程3
  • 实验kubernetes的CPU绑定策略
  • Zsh 安装与配置
  • Redis可视化工具Redis Desktop Manager(附安装包)
  • sql server删除过期备份文件脚本
  • 【Docker系列】Docker查看镜像架构
  • Python案例 | 测试网络的下载速度上传速度和 ping 延迟
  • 一键找回,2024四大固态硬盘数据恢复工具推荐!
  • 数据结构~AVL树
  • ffmpeg面向对象——rtsp拉流探索(1)
  • 【启明智显分享】ZX7981PM WIFI6 5G-CPE:2.5G WAN口,2.4G/5G双频段自动调速
  • openresty“热部署“lua
  • 基于SpringBoot+Vue+MySQL的企业招聘管理系统
  • vue3之defineComponent
  • springboot+vue家政服务管理平台
  • python pip安装requirements.txt依赖与国内镜像
  • 解决Qt的QWidget设计师编辑UI后和软件运行显示不一致
  • 交易所开发:构建安全、高效、可靠的数字资产交易平台
  • 【Next.js 入门教程系列】09-优化技巧
  • Windows 11 开发详解:工具与高级用法
  • leetcode 292.Nim游戏