当前位置：首页 > news >正文

Python 数据持久化存储：深入解析 JSON 与 Pickle 模块

news 2025/7/25 12:03:56

引言：

在 Python 编程中，我们经常需要将数据进行持久化存储或者在不同程序之间进行数据交换。JSON 和 Pickle 是 Python 中两种常用的数据序列化工具，本文将深入探讨它们的特点、适用场景及使用技巧。

一、JSON 模块：跨语言数据交换的首选

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式，具有良好的可读性和跨语言兼容性。Python 的 json 模块提供了处理 JSON 数据的全套工具。

1. 核心功能函数

json 模块主要提供了两对核心函数：

dumps ()/loads ()：处理字符串
dump ()/load ()：处理文件对象

2. 基础用法示例

下面是一个使用 JSON 模块处理数据的完整示例：

import json# 定义一个复杂的数据结构
data = {"name": "Alice","age": 30,"hobbies": ["reading", "swimming", "coding"],"contact": {"email": "alice@example.com","phone": "123-456-7890"},"is_student": False,"projects": [{"name": "Web App", "completed": True},{"name": "Data Analysis", "completed": False}]
}# 将数据序列化为JSON字符串
json_str = json.dumps(data, indent=4, sort_keys=True)
print(f"JSON字符串: \n{json_str}")# 将JSON字符串反序列化为Python对象
parsed_data = json.loads(json_str)
print(f"反序列化后的类型: {type(parsed_data)}")# 将数据写入JSON文件
with open('data.json', 'w') as f:json.dump(data, f, indent=4)# 从JSON文件读取数据
with open('data.json', 'r') as f:loaded_data = json.load(f)print(f"从文件加载的数据类型: {type(loaded_data)}")

3. 高级特性

JSON 模块还支持自定义序列化和反序列化行为，通过default和object_hook参数可以处理特殊类型的对象：

import json
from datetime import datetime# 自定义JSON编码器，处理datetime对象
class CustomEncoder(json.JSONEncoder):def default(self, obj):if isinstance(obj, datetime):return obj.isoformat()return super().default(obj)# 自定义JSON解码器
def custom_decoder(dct):for key, value in dct.items():if isinstance(value, str) and value.endswith('Z'):try:dct[key] = datetime.fromisoformat(value)except ValueError:passreturn dct# 使用示例
data = {"name": "Bob","created_at": datetime.now()
}# 序列化
json_str = json.dumps(data, cls=CustomEncoder)
print(f"包含日期的JSON: {json_str}")# 反序列化
loaded_data = json.loads(json_str, object_hook=custom_decoder)
print(f"反序列化后的日期类型: {type(loaded_data['created_at'])}")

二、Pickle 模块：Python 专属的全能序列化工具

Pickle 是 Python 特有的序列化模块，能够将几乎所有 Python 对象转换为字节流，并且可以完全恢复原始对象。

1. 核心功能函数

Pickle 模块的接口与 JSON 模块非常相似：

dumps ()/loads ()：处理字节串
dump ()/load ()：处理文件对象

2. 基础用法示例

下面是一个使用 Pickle 处理复杂 Python 对象的示例：

import pickle
import datetime# 定义一个包含多种数据类型的复杂对象
class Person:def __init__(self, name, age):self.name = nameself.age = agedef greet(self):return f"Hello, my name is {self.name} and I'm {self.age} years old."# 创建对象实例
alice = Person("Alice", 30)
data = {"timestamp": datetime.datetime.now(),"person": alice,"scores": [95, 88, 92],"settings": {"theme": "dark", "font_size": 14}
}# 使用pickle序列化对象
pickled_data = pickle.dumps(data)
print(f"Pickle字节串长度: {len(pickled_data)}")# 使用pickle反序列化对象
unpickled_data = pickle.loads(pickled_data)
print(f"反序列化后的person类型: {type(unpickled_data['person'])}")
print(unpickled_data['person'].greet())# 将对象保存到文件
with open('data.pkl', 'wb') as f:pickle.dump(data, f)# 从文件加载对象
with open('data.pkl', 'rb') as f:loaded_data = pickle.load(f)print(f"从文件加载的datetime类型: {type(loaded_data['timestamp'])}")

3. 安全性考虑

虽然 Pickle 功能强大，但由于它可以执行任意代码，从不可信来源加载 Pickle 数据是非常危险的：

# 危险示例，不要在实际代码中使用！
import pickle# 恶意代码示例
malicious_code = """
import os
os.system('rm -rf /tmp/unwanted_files')  # 危险操作
"""class MaliciousClass:def __reduce__(self):return (exec, (malicious_code,))# 序列化恶意对象
pickled_malicious = pickle.dumps(MaliciousClass())# 如果加载这个pickle数据，将执行恶意代码
# pickle.loads(pickled_malicious)  # 千万不要运行这行代码！

三、JSON 与 Pickle 的对比分析

特性	JSON	Pickle
数据格式	文本（UTF-8）	二进制
跨语言支持	所有主流编程语言	仅 Python
支持的对象类型	基本 Python 类型	几乎所有 Python 对象
安全性	安全（纯数据）	不安全（可执行任意代码）
性能	较慢（文本处理）	较快（二进制处理）
文件大小	通常较大（人类可读）	通常较小（二进制紧凑）
典型应用场景	API 数据交换、配置文件	内部数据存储、机器学习模型