当前位置: 首页 > news >正文

使用Pydantic驾驭大模型

本文介绍Pydantic 库,首先介绍其概念及优势,然后通过基本示例展示如何进行数据验证。后面通过多个示例解释如何在LangChain中通过Pydantic进行数据验证,保证与大模型进行交互过程中数据准确性,并显示清晰的数验证错误信息。

Pydantic 简介

Pydantic 是用于数据验证和设置管理的 Python 库。它主要用于在 Python 程序中对数据进行严格的类型检查和验证,确保数据符合预期的格式和类型。它在处理用户输入、配置文件解析、API 数据交互等场景中非常有用。

Pydantic 基于 Python 的类型提示(type hints)构建。类型提示是 Python 3.5 + 版本引入的一个特性,用于在代码中声明变量、函数参数和返回值的类型,Pydantic 利用这些类型提示来验证数据。
在这里插入图片描述

Pydantic 的优势

  • 数据验证功能强大

    可以验证多种数据类型,包括基本数据类型(如整数、字符串、浮点数等)和复杂数据类型(如列表、字典、自定义对象等)。例如,验证一个包含用户信息的字典,其中年龄字段必须是整数,姓名字段必须是字符串。

    支持嵌套数据结构的验证。如果有一个包含多个子对象的复杂数据结构,Pydantic 可以递归地验证每个子对象的类型和格式。比如一个包含订单信息的对象,其中订单详情是一个列表,每个订单详情对象又包含商品名称、价格等字段,Pydantic 可以验证整个结构的正确性。

  • 易于使用和集成

    基于 Python 的类型提示,代码的可读性非常高。开发人员只需要在定义类或函数时使用类型提示,Pydantic 就能自动进行数据验证。例如:

from pydantic import BaseModel
class User(BaseModel):name: strage: int

​ 可以很方便地与其他 Python 库和框架集成,如 FastAPI。在 FastAPI 中,Pydantic 用于验证 API 请求和响应的数据格式,大大简化了 API 开发过程中的数据验证部分。

  • 提供友好的错误信息

​ 当数据验证失败时,Pydantic 会返回清晰、详细的错误信息。这些错误信息能够帮助开发人员快速定位问题所在。例如,如果一个字符串类型的字段被传入了一个整数,Pydantic 会指出哪个字段不符合预期类型以及正确的类型应该是什么。

简单验证示例

  • 基本数据验证示例
from pydantic import BaseModelclass Item(BaseModel):name: strprice: floatis_available: bool# 正确的数据
item1 = Item(name="Apple", price=0.5, is_available=True)
print(item1)# 错误的数据,会引发验证错误
try:item2 = Item(name="Banana", price="not a float", is_available=True)
except ValueError as e:print(e)

在这个示例中,定义了一个Item类,它有三个字段:name(字符串类型)、price(浮点数类型)和is_available(布尔类型)。当创建item1时,传入的数据符合预期类型,所以能够正确创建对象。而当创建item2时,price字段传入了一个字符串而不是浮点数,Pydantic 会引发一个ValueError,并且可以通过捕获这个异常来处理错误。

  • 嵌套数据验证示例
from pydantic import BaseModelclass OrderDetail(BaseModel):product_name: strquantity: intclass Order(BaseModel):order_id: intcustomer_name: strdetails: list[OrderDetail]order_data = {"order_id": 1,"customer_name": "John","details": [{"product_name": "Book", "quantity": 2},{"product_name": "Pen", "quantity": 3}]
}
order = Order(**order_data)
print(order)

这里定义了两个类,OrderDetail用于表示订单详情,包含product_name(字符串类型)和quantity(整数类型)。Order类用于表示整个订单,包含order_id(整数类型)、customer_name(字符串类型)和detailsOrderDetail对象列表)。通过传入符合结构要求的字典order_data,可以正确创建Order对象。Pydantic 会自动验证order_data中的每个字段和嵌套对象的类型是否正确。

**Pydantic驾驭LangChain **

在 LangChain 中,Pydantic 主要用于数据验证和模型定义。LangChain 通常需要处理各种类型的数据,包括从外部 API 接收的数据、用户输入的数据以及内部组件之间传递的数据。Pydantic 的数据验证功能可以确保这些数据符合预期的结构和类型,从而避免因数据不匹配导致的错误。

同时,Pydantic 的 BaseModel 可以帮助你创建清晰的数据结构,方便在 LangChain 应用程序中进行数据的序列化和反序列化操作。
在这里插入图片描述

简单示例场景

假设你正在构建一个使用 LangChain 的对话机器人,你可能需要处理用户的输入和从语言模型返回的信息。你可以使用 Pydantic 来定义输入和输出的数据模型。

from pydantic import BaseModel
from langchain.llms import OpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate# 定义一个 Pydantic 模型来表示用户输入
class UserInput(BaseModel):topic: str# 定义一个 Pydantic 模型来表示语言模型的输出
class LLMOutput(BaseModel):response: str# 定义一个提示模板
prompt = PromptTemplate(input_variables=["topic"],template="请告诉我关于{topic}的一些信息。"
)# 初始化语言模型
llm = OpenAI(temperature=0.9)# 创建一个链
chain = LLMChain(llm=llm, prompt=prompt)# 示例用户输入
user_input = UserInput(topic="人工智能的发展")# 验证用户输入
if not isinstance(user_input, UserInput):raise ValueError("输入必须是 UserInput 类型")# 运行链
response = chain.run(topic=user_input.topic)# 处理语言模型的输出
llm_output = LLMOutput(response=response)print(llm_output)
  • 首先,创建自定义的数据模型。

    UserInput 类是一个 Pydantic 模型,它规定了用户输入必须包含名为 topic 的字符串字段。

    LLMOutput 类是一个 Pydantic 模型,它规定了语言模型的输出必须包含名为 response 的字符串字段。

  • 我们使用 PromptTemplate 来创建一个提示模板,它将根据用户输入的 topic 生成相应的提示。然后,我们使用 OpenAI 初始化一个语言模型,并将其与 LLMChain 结合,创建一个链。

  • 当我们收到用户输入时,我们将其存储在 user_input 变量中,并将其作为 UserInput 类型进行验证。如果输入不符合 UserInput 类型,将引发 ValueError。运行链时,我们将用户输入的 topic 传递给链。

  • 语言模型返回的结果存储在 response 中,我们将其包装在 LLMOutput 类型中,以确保其符合预期的数据结构。

其他组件结合示例

Pydantic 可以与 LangChain 的其他组件如 AgentsMemoryTools 等结合使用。例如,当你使用 Agents 时,你可以定义 Pydantic 模型来表示工具的输入和输出,以确保数据在工具调用和工具响应之间的一致性。

from pydantic import BaseModel
from langchain.agents import Tool# 定义工具输入的 Pydantic 模型
class ToolInput(BaseModel):query: str# 定义工具输出的 Pydantic 模型
class ToolOutput(BaseModel):result: str# 定义简单的工具
def sample_tool(input_data: ToolInput) -> ToolOutput:# 确保输入数据是 ToolInput 类型if not isinstance(input_data, ToolInput):raise ValueError("输入必须是 ToolInput 类型")result = f"你查询的是: {input_data.query}"return ToolOutput(result=result)# 将工具包装为 LangChain 的工具
tool = Tool(name="SampleTool",func=sample_tool,description="一个简单的示例工具,它会重复你的查询。",parameters=ToolInput.schema()
)# 测试工具
input_data = ToolInput(query="测试工具")
output = tool.run(input_data.json())
print(output)
  • 这里我们定义了 ToolInputToolOutput 两个 Pydantic 模型,分别用于表示工具的输入和输出。
  • 我们创建简单的 sample_tool 函数,它接受 ToolInput 类型的输入并返回 ToolOutput 类型的输出。
  • 然后我们使用 Tool 类将这个工具包装起来,并将其作为 LangChain 的工具使用。我们使用 ToolInput.schema() 来提供工具的输入参数的模式信息,方便 LangChain 对输入进行验证。

通过上述示例,你可以看到如何在 LangChain 中使用 Pydantic 来定义清晰的数据结构,并确保数据的一致性和正确性,同时将 Pydantic 与 LangChain 的不同组件进行结合,以增强你的应用程序的稳定性和可维护性。

详细完整示例

from pydantic import BaseModel, ValidationError
from langchain.llms import OpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate# 定义 Pydantic 模型用于输入数据的验证
class QueryInput(BaseModel):query: strmax_length: int# 定义 Pydantic 模型用于输出数据的验证
class QueryOutput(BaseModel):answer: str# 定义提示模板
prompt_template = PromptTemplate(input_variables=["query", "max_length"],template="请回答关于 {query} 的问题,回答长度不超过 {max_length} 个字符。"
)# 初始化语言模型
llm = OpenAI(temperature=0.7)# 创建一个 LLMChain
chain = LLMChain(llm=llm, prompt=prompt_template)def process_query(input_data: dict):try:# 使用 Pydantic 模型对输入数据进行验证validated_input = QueryInput(**input_data)except ValidationError as e:print(f"输入数据验证失败: {e}")return None# 运行 LLMChainresult = chain.run(query=validated_input.query, max_length=validated_input.max_length)try:# 使用 Pydantic 模型对输出数据进行验证validated_output = QueryOutput(answer=result)except ValidationError as e:print(f"输出数据验证失败: {e}")return Nonereturn validated_output# 测试数据
test_input = {"query": "什么是人工智能","max_length": 100
}# 调用函数进行处理
output = process_query(test_input)
if output:print(output.answer)

通过这种方式,我们可以在 LangChain 应用中有效地使用 Pydantic 来确保输入和输出数据的一致性和正确性,避免由于数据不匹配或格式错误导致的问题。此外,Pydantic 的 ValidationError 提供了清晰的错误信息,帮助我们快速定位和解决数据验证问题。

http://www.lryc.cn/news/523550.html

相关文章:

  • 【HarmonyOS之旅】基于ArkTS开发(二) -> UI开发之常见布局
  • 【论文投稿】Python 网络爬虫:探秘网页数据抓取的奇妙世界
  • 队列的基本用法
  • 网络安全VS数据安全
  • Linux(NFS服务)
  • python编程-OpenCV(图像读写-图像处理-图像滤波-角点检测-边缘检测)边缘检测
  • SSM课设-学生管理系统
  • 【Pytorch实用教程】TCN(Temporal Convolutional Network,时序卷积网络)简介
  • 网络安全 | 什么是正向代理和反向代理?
  • 3 前端(中):JavaScript
  • VIT论文阅读与理解
  • JavaScript笔记APIs篇01——DOM获取与属性操作
  • SQL表间关联查询详解
  • select函数
  • 建造者模式(或者称为生成器(构建器)模式)
  • 【深度学习】Huber Loss详解
  • A5.Springboot-LLama3.2服务自动化构建(二)——Jenkins流水线构建配置初始化设置
  • 李宏毅机器学习HW1: COVID-19 Cases Prediction
  • MySQL下载安装DataGrip可视化工具
  • 多平台下Informatica在医疗数据抽取中的应用
  • 用公网服务器实现内网穿透
  • 为什么mysql更改表结构时,varchar超过255会锁表
  • ASP.NET Core中 JWT 实现无感刷新Token
  • 函数(函数的概念、库函数、自定义函数、形参和实参、return语句、数组做函数参数、嵌套调用和链式访问、函数的声明和定义、static和extern)
  • 物联网在烟草行业的应用
  • 第6章:Python TDD实例变量私有化探索
  • Java操作Excel导入导出——POI、Hutool、EasyExcel
  • BUUCTF_Web([GYCTF2020]Ezsqli)
  • 微软宣布Win11 24H2进入新阶段!设备将自动下载更新
  • SpringBoot:解决前后端请求跨域问题(详细教程)