当前位置: 首页 > news >正文

MongoDB中单对象大小超16M的存储方案

在 MongoDB 中,单个文档的大小限制为 16MB。如果某个对象(文档)的大小超过 16MB,可以通过以下几种方案解决:


1. 使用 GridFS

适用场景:需要存储大文件(如图像、视频、文档等)。

原理

  • MongoDB 的 GridFS 是一种专门用于存储超过 16MB 文件的工具。
  • 它会将大文件分割成多个 chunk(默认大小 255KB),并存储在两个集合中:
    • fs.files:存储文件的元数据(如文件名、大小、类型等)。
    • fs.chunks:存储文件的内容分块。

实现步骤

存储大文件 使用 MongoDB 驱动的 GridFS 工具存储文件。

  1. Python 示例

     

  2. from pymongo import MongoClient
    from gridfs import GridFSclient = MongoClient("mongodb://localhost:27017")
    db = client.myDatabase
    fs = GridFS(db)# 存储文件
    with open("large_file.bin", "rb") as f:fs.put(f, filename="large_file.bin")
    

  3. 读取大文件
     

    # 读取文件
    file_data = fs.get_last_version(filename="large_file.bin")
    with open("output.bin", "wb") as f:f.write(file_data.read())
    


2. 将文档拆分为多个小文档

适用场景:文档包含大量嵌套数据,导致总大小超过 16MB。

解决思路

  • 将大文档拆分成多个子文档。
  • 使用字段(如 _idparentId)将这些子文档关联起来。

实现步骤

示例:拆分用户日志记录 原始大文档(超 16MB):

 

json:

{ "_id": "user1", "logs": [ { "timestamp": "2025-01-01", "action": "login" }, ... ] }

拆分为多个小文档:

 

json:

// 主文档

{ "_id": "user1", "type": "userMetadata" }

// 子文档

{ "parentId": "user1", "logs": [ { "timestamp": "2025-01-01", "action": "login" }, ... ] }

查询时合并:

 

javascript:

db.metadata.find({ _id: "user1" });

db.logs.find({ parentId: "user1" });


3. 使用 BSON 对象数组存储引用

适用场景:需要在文档中存储大量关联对象。

解决思路

  • 将大数组分割到其他集合中,主文档存储引用。

示例

大文档超限前:

 

json:

{ "_id": "project1", "name": "Big Project", "tasks": [ /* 超大量任务数据 */ ] }

优化后:

 

json:

// 主文档 { "_id": "project1", "name": "Big Project" } // 任务文档 { "projectId": "project1", "taskId": 1, "taskName": "Task 1", ... }

查询时通过 projectId 关联:

 

javascript:

db.projects.find({ _id: "project1" }); db.tasks.find({ projectId: "project1" });


4. 压缩数据

适用场景:文档中包含重复数据或可压缩结构(如 JSON 数据)。

解决思路

  • 在存储之前压缩数据(例如使用 GZIP、Zlib 等)。
  • 查询时解压数据。

示例

Python 实现

 

python:

import zlib
from pymongo import MongoClientclient = MongoClient("mongodb://localhost:27017")
db = client.myDatabase
collection = db.myCollection# 压缩存储
data = {"key": "value" * 10000}
compressed_data = zlib.compress(str(data).encode("utf-8"))
collection.insert_one({"_id": "compressed_doc", "data": compressed_data})# 解压读取
doc = collection.find_one({"_id": "compressed_doc"})
decompressed_data = zlib.decompress(doc["data"]).decode("utf-8")

5. 修改数据结构

适用场景:文档设计冗余或结构不合理。

解决思路

  • 简化嵌套层级。
  • 使用更紧凑的数据类型(如数组代替对象)。

优化前

 

json:

{ "_id": "order1", "customer": { "id": 1, "name": "John Doe" }, "items": [ { "productId": "p1", "productName": "Product 1", "quantity": 2 } ] }

优化后

 

json:

{ "_id": "order1", "customerId": 1, "items": [ { "p": "p1", "q": 2 } ] }


6. 使用文件系统或其他存储服务

适用场景:非结构化大数据(如媒体文件、大型JSON)。

解决思路

  • 将大数据存储到文件系统、Amazon S3、Azure Blob 等。
  • 在 MongoDB 中存储文件路径或 URL。

总结

  • 优先选择方案
    1. 使用 GridFS 存储大文件。
    2. 拆分文档分表设计 解决超大文档问题。
    3. 结合压缩或外部存储进一步优化。
http://www.lryc.cn/news/525867.html

相关文章:

  • 三维激光扫描-用智能检测系统提升效率
  • css遇到的一些问题
  • 【langgraph】ubuntu安装:langgraph:未找到命令
  • mysql 学习2 MYSQL数据模型,mysql内部可以创建多个数据库,一个数据库中有多个表;表是真正放数据的地方,关系型数据库 。
  • 小识JVM堆内存管理的优化机制TLAB
  • ToDesk云电脑、顺网云、网易云、易腾云、极云普惠云横测对比:探寻电竞最佳拍档
  • 学习ASP.NET Core的身份认证(基于JwtBearer的身份认证10)
  • vscode环境中用仓颉语言开发时调出覆盖率的方法
  • OLED--软件I2C驱动__标准库和HAL库
  • 【设计模式-行为型】观察者模式
  • 从理论到实践:Django 业务日志配置与优化指南
  • Linux下php8安装phpredis扩展的方法
  • Flink运行时架构
  • JupyterLab 安装以及部分相关配置
  • PC端实现PDF预览(支持后端返回文件流 || 返回文件URL)
  • 大模型 / 智能体在智能运维领域的应用总结与发展趋势概述
  • uniapp 在线更新应用
  • AIGC视频生成模型:ByteDance的PixelDance模型
  • python远程获取数据库中的相关数据并存储至json文件
  • Kubernetes v1.28.0安装dashboard v2.6.1(k8s图形化操作界面)
  • 详解三种常用标准化:Batch Norm、Layer Norm和RMSNorm
  • linux+docker+nacos+mysql部署
  • 如何实现gitlab和jira连通
  • 利用ML.NET精准提取人名
  • Node.js的解释
  • Macos下交叉编译安卓的paq8px压缩算法
  • 如何在data.table中处理缺失值
  • 从零安装 LLaMA-Factory 微调 Qwen 大模型成功及所有的坑
  • SQL-leetcode—1164. 指定日期的产品价格
  • [Day 15]54.螺旋矩阵(简单易懂 有画图)