当前位置: 首页 > news >正文

FastAPI删除mongodb重复数据(数据清洗)

在 FastAPI 中删除 MongoDB 重复数据,你需要结合使用 MongoDB 查询和 FastAPI 的路由功能。以下是一个通用的例子,演示如何删除特定字段上的重复数据:

1. 定义数据模型:

from pydantic import BaseModel, Field
from bson import ObjectId
from typing import Optionalclass PyObjectId(ObjectId):@classmethoddef __get_validators__(cls):yield cls.validate@classmethoddef validate(cls, v):if not ObjectId.is_valid(v):raise ValueError("Invalid objectid")return ObjectId(v)@classmethoddef __modify_schema__(cls, field_schema):field_schema.update(type="string")class ItemBase(BaseModel):field_to_check: str # 需要检查重复的字段class Item(ItemBase):id: Optional[PyObjectId] = Field(alias="_id")class Config:arbitrary_types_allowed = Truejson_encoders = {ObjectId: str}

2. 创建 MongoDB 连接:

from motor.motor_asyncio import AsyncIOMotorClientMONGO_DETAILS = "mongodb://localhost:27017" # 替换为你的 MongoDB 连接字符串
client = AsyncIOMotorClient(MONGO_DETAILS)
database = client["your_database_name"] # 替换为你的数据库名称
collection = database.get_collection("your_collection_name") # 替换为你的集合名称

3. 实现删除逻辑:

from fastapi import FastAPI, HTTPExceptionapp = FastAPI()@app.delete("/items/duplicates/", response_model=list[Item])
async def delete_duplicate_items(field_name: str = "field_to_check"):"""删除指定字段上的重复数据。Args:field_name (str, optional): 需要检查重复的字段名. Defaults to "field_to_check".Returns:list[Item]: 返回删除的重复文档列表."""# 使用聚合管道查找并删除重复项pipeline = [{"$match": {"version": 1}},  # 只处理 version 为 1 的文档{"$group": {"_id": {"{}".format(field_name): "$"+field_name}, "count": {"$sum": 1}, "dups": {"$push": "$_id"}}},{"$match": {"count": {"$gt": 1}}},{"$unwind": "$dups"},{"$skip": 1}, {"$project": {"_id": "$dups"}}]duplicate_ids = [doc["_id"] async for doc in collection.aggregate(pipeline)]if duplicate_ids:deleted_items = []for item_id in duplicate_ids:result = await collection.find_one_and_delete({"_id": item_id})if result:deleted_items.append(Item(**result))return deleted_itemsraise HTTPException(status_code=404, detail="没有找到重复数据")

4. 运行 FastAPI 应用:

uvicorn main:app --reload

解释:

  • 数据模型: 使用 Pydantic 定义数据模型,确保数据一致性.
  • MongoDB 连接: 使用 motor 库异步连接到 MongoDB 数据库.
  • 聚合管道: 使用 MongoDB 的聚合管道查找重复数据:
    • $group: 按指定字段分组,计算每个分组中文档数量.
    • $match: 筛选数量大于 1 的分组,即存在重复数据的组.
    • $unwind: 将 dups 数组展开为多行.
    • $skip: 跳过每组的第一个文档,因为我们只删除重复的.
    • $project: 只保留 _id 字段.
  • 删除数据: 使用 find_one_and_delete 方法删除找到的重复文档.
  • 错误处理: 如果没有找到重复数据,抛出 404 错误.

注意:

  • 将代码中的占位符替换为你自己的数据库和集合名称.
  • 可以根据需要修改聚合管道,以适应不同的重复数据查找需求.
http://www.lryc.cn/news/408557.html

相关文章:

  • 移动UI:排行榜单页面如何设计,从这五点入手,附示例。
  • 如何解决 uni-app 项目中 “文件查找失败:‘crypto-js‘“ 的问题
  • Apache DolphinScheduler 3.2.2 版本正式发布!
  • 汇川CodeSysPLC教程03-2-6 ModBus TCP
  • 【Python机器学习】决策树的构造——划分数据集
  • Pip换源使用帮助
  • 力扣1089复写0
  • 10 VUE Element
  • 独立游戏《星尘异变》UE5 C++程序开发日志8——实现敏感词过滤功能(AC自动机)
  • 使用 Swagger 在 Golang 中进行 API 文档生成
  • Pip换源实战指南:加速你的Python开发
  • 【数据结构】常用数据结构的介绍:理解与应用
  • 【优秀python系统毕设】基于Python flask的气象数据可视化系统设计与实现,有LSTM算法预测气温
  • 【康复学习--LeetCode每日一题】2951. 找出峰值
  • PYTHON学习笔记(八、字符串及的使用)
  • 文件共享功能无法使用提示错误代码0x80004005【笔记】
  • FTP(File Transfer Protocal,文件传输协议)
  • DevEco Studio中使用Qt,编写HarmonyOS程序
  • 基于单文档的MFC图像增强
  • 云计算实训13——DNS域名解析、ntp时间服务器配置、主从DNS配置、多区域DNS搭建
  • 【C#】Visual Studio2022打包依赖第三方库的winForm程序为exe
  • 《算法笔记》总结No.11——数字处理(上)欧拉筛选
  • DP学习——享元模式
  • 无人机10公里WiFi图传摄像模组,飞睿智能超清远距离无线监控,智能安防新潮流
  • SAP S/4HANA Cloud Public Edition
  • LabVIEW汽车动态信号模拟系统
  • chrome 插件:content-script 部分逻辑在页面无法生效,可考虑插入 script 到页面上
  • 【前端 10】初探BOM
  • PostgreSQL入门与进阶学习,体系化的SQL知识,完成终极目标高可用与容灾,性能优化与架构设计,以及安全策略
  • ODBC+FreeTDS从Linux访问Windows SqlServer数据库