当前位置: 首页 > news >正文

langchain 加载各种格式文件读取方法

参考:https://python.langchain.com/docs/modules/data_connection/document_loaders/
https://github.com/thomas-yanxin/LangChain-ChatGLM-Webui/blob/master/app.py
在这里插入图片描述

代码

可以支持pdf、md、doc、txt等格式

from langchain.document_loaders import UnstructuredFileLoader
import re
from typing import Listfrom langchain.text_splitter import CharacterTextSplitterclass ChineseTextSplitter(CharacterTextSplitter):def __init__(self, pdf: bool = False, **kwargs):super().__init__(**kwargs)self.pdf = pdfdef split_text(self, text: str) -> List[str]:if self.pdf:text = re.sub(r"\n{3,}", "\n", text)text = re.sub('\s', ' ', text)text = text.replace("\n\n", "")sent_sep_pattern = re.compile('([﹒﹔﹖﹗.。!?]["’”」』]{0,2}|(?=["‘“「『]{1,2}|$))') sent_list = []for ele in sent_sep_pattern.split(text):if sent_sep_pattern.match(ele) and sent_list:sent_list[-1] += eleelif ele:sent_list.append(ele)return sent_listdef load_file(filepath):if filepath.lower().endswith(".md"):loader = UnstructuredFileLoader(filepath, mode="elements")docs = loader.load()elif filepath.lower().endswith(".pdf"):loader = UnstructuredFileLoader(filepath)textsplitter = ChineseTextSplitter(pdf=True)docs = loader.load_and_split(textsplitter)else:loader = UnstructuredFileLoader(filepath, mode="elements")textsplitter = ChineseTextSplitter(pdf=False)docs = loader.load_and_split(text_splitter=textsplitter)return docs

在这里插入图片描述

继续把上面切分数据保存到FAISS
参考:https://blog.csdn.net/weixin_42357472/article/details/133778618?spm=1001.2014.3001.5502


from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddingsembedding = HuggingFaceEmbeddings(model_name=r"C:\Users\loong\.cache\huggingface\hub\models--shibing624--text2vec-base-chinese\snapshots\2642****1812248")  ##HuggingFace离线模型,用加载HuggingFaceEmbeddings##保存向量
docs = load_file(r"C:\Users\loong\D***资料.txt")
vector_store = FAISS.from_documents(docs, embedding)
vector_store.save_local('faiss_index')## query 向量库搜索测试query = "公司地址"
vector_store.similarity_search(query)
http://www.lryc.cn/news/193364.html

相关文章:

  • 飞花令游戏(Python)
  • 解决“413 Request Entity Too Large”错误 代表请求包太大,服务器拒绝响应
  • MoeCTF2023web
  • C语言编写简易图书管理系统
  • C++入门 第一篇(C++关键字, 命名空间,C++输入输出)
  • python股票波动性分析
  • 53 打家劫舍
  • CentOS 7 基于C 连接ZooKeeper 客户端
  • 2023-2024-1 for循环-1(15-38)
  • 初级问题 程序中的变量是指什么?中级问题 把若干个数据沿直线排列起来的数据结构叫作什么?高级问题 栈和队列的区别是什么?
  • clickhouse数据库简介,列式存储
  • flask 发送ajax
  • Android Gradle 命令打包AAR
  • 如何导出带有材质的GLB模型?
  • C/C++面试常见知识点
  • 详细介绍数据结构-堆
  • 001flutter基础学习
  • leetCode 1143.最长公共子序列 动态规划 + 图解
  • 解密人工智能:KNN | K-均值 | 降维算法 | 梯度Boosting算法 | AdaBoosting算法
  • Python深度学习实践
  • VS2017+QT+PCL环境配置
  • 207、SpringBoot 整合 RabbitMQ 实现消息的发送 与 接收(监听器)
  • 想要精通算法和SQL的成长之路 - 滑动窗口和大小根堆
  • Python算法练习 10.15
  • 智能防眩目前照灯系统控制器ADB
  • 若依 ruoyi 路径 地址 # 井号去除
  • Elasticsearch 和 Arduino:一起变得更好!
  • 基于Ubuntu环境Git 服务器搭建及使用
  • 【quartus13.1/Verilog】swjtu西南交大:计组课程设计
  • 基于springboot的网上点餐系统论文开题报告