当前位置: 首页 > news >正文

Py之llama-parse:llama-parse(高效解析和表示文件)的简介、安装和使用方法、案例应用之详细攻略

Py之llama-parse:llama-parse(高效解析和表示文件)的简介、安装和使用方法、案例应用之详细攻略

目录

llama-parse的简介

llama-parse的安装和使用方法

1、安装

2、使用方法

第一步,获取API 密钥

第二步,安装LlamaIndex、LlamaParse

LLM之RAG之LlaMAIndex:llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略

第三步,解析第一个 PDF 文件

第四步,将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器:

llama-parse的案例应用


llama-parse的简介

2024年4月15日正式发布,LlamaParse 是由 LlamaIndex 创建的一个 API,用于高效解析和表示文件,以便使用 LlamaIndex 框架进行高效检索和上下文增强。

LlamaParse 可以直接与 LlamaIndex 集成。免费计划每天最多处理 1000 页。付费计划每周免费处理 7000 页,超过部分每页收费 0.3 美分。

llama-parse的安装和使用方法

1、安装

pip install -i https://mirrors.aliyun.com/pypi/simple llama-parsepip install -i https://mirrors.aliyun.com/pypi/simple -qU llama-parse

# -q:这个参数表示安静模式(quiet),它会减少输出的信息只显示错误信息。
-U:这个参数表示升级模式(upgrade),它会升级指定的软件包到最新版本。

2、使用方法

第一步,获取API 密钥

首先,登录并从 LlamaCloud 获取一个 API 密钥。

第二步,安装LlamaIndex、LlamaParse

然后,确保你安装了最新版本的 LlamaIndex。
注意:如果你是从 v0.9.X 升级,我们建议你遵循我们的迁移指南,并且先卸载之前的版本。

pip uninstall llama-index  # 如果从 v0.9.x 或更早版本升级,请运行此命令
pip install -U llama-index --upgrade --no-cache-dir --force-reinstall最后,安装 LlamaParse 包:
pip install llama-parse

LLM之RAG之LlaMAIndex:llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略

LLM之RAG之LlaMAIndex:llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略_llamaindex原理-CSDN博客

第三步,解析第一个 PDF 文件

现在你可以运行以下代码来解析你的第一个 PDF 文件:


现在你可以运行以下代码来解析你的第一个 PDF 文件:
import nest_asyncio
nest_asyncio.apply()
from llama_parse import LlamaParseparser = LlamaParse(api_key="llx-...",  # 也可以在环境变量中设置为 LLAMA_CLOUD_API_KEYresult_type="markdown",  # 可以选择 "markdown" 或 "text"num_workers=4,  # 如果传递多个文件,则在 `num_workers` 个 API 调用中拆分verbose=True,language="en",  # 可以选择定义语言,默认=en
)# 同步解析单个文件
documents = parser.load_data("./my_file.pdf")
# 同步解析多个文件
documents = parser.load_data(["./my_file1.pdf", "./my_file2.pdf"])
# 异步解析单个文件
documents = await parser.aload_data("./my_file.pdf")
# 异步解析多个文件
documents = await parser.aload_data(["./my_file1.pdf", "./my_file2.pdf"])
与 SimpleDirectoryReader 一起使用

第四步,将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器:

第四步,将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器:
import nest_asyncio
nest_asyncio.apply()from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReaderparser = LlamaParse(api_key="llx-...",  # 也可以在环境变量中设置为 LLAMA_CLOUD_API_KEYresult_type="markdown",  # 可以选择 "markdown" 或 "text"verbose=True,
)file_extractor = {".pdf": parser}
documents = SimpleDirectoryReader("./data", file_extractor=file_extractor
).load_data()
SimpleDirectoryReader 的完整文档可以在 LlamaIndex 文档中找到。

llama-parse的案例应用

持续更新中……

http://www.lryc.cn/news/351613.html

相关文章:

  • Python库之Scrapy的高级用法深度解析
  • Rust Tarui 中的 Scrcpy 客户端,旨在提供控制安卓设备的鼠标和按键映射,类似于游戏模拟器。
  • 【shell】脚本练习题
  • 微信小程序uniapp+django洗脚按摩足浴城消费系统springboot
  • 超链接的魅力:HTML中的 `<a>` 标签全方位探索!
  • 与优秀者同行,“复制经验”是成功的最快捷径
  • MobaXterm使用私钥远程登陆linux
  • Java设计模式(23种设计模式 重点介绍一些常用的)
  • JVM(5):虚拟机性能分析和故障解决工具概述
  • vue3插槽solt 使用
  • 正则项学习笔记
  • Django自定义模板标签与过滤器
  • k8s集群安装后CoreDNS 启动报错plugin/forward: no nameservers found
  • AI图片过拟合如何处理?答案就在其中!
  • 0基础如何进入IT行业
  • 一键批量提取TXT文档前N行,高效处理海量文本数据,省时省力新方案!
  • Java-常见面试题收集(十六)
  • vue从入门到精通(四):MVVM模型
  • 提供一个c# winform的多语言框架源码,采用json格式作为语言包,使用简单易于管理加载且不卡UI,支持“语言分级”管理
  • Docker常见命令
  • 中科大6系+先研院+中南大学电子信息学院2023年保研经历
  • 分布式理论--BASE
  • 【计算机网络原理】浅谈应用层协议的自定义和传输层UDP协议的总结
  • 正则表达式及其应用
  • VUE面试题(3)--vue常见面试题
  • 2024.05.24|生信早报【AI测试版】
  • 计算机毕业设计 | springboot药品库存追踪与管理系统 药店管理(附源码)
  • Flink 对接 Hudi 查询数据,java代码编写
  • 计算机操作系统总结(1)
  • HTML5好看的通用网站模板源码