当前位置: 首页 > news >正文

写给大数据开发:谈谈数仓建模的反三范式

在数仓建设中,我们经常谈论反三范式。顾名思义,反范式化指的是通过增加冗余或重复的数据来提高数据库的读性能。简单来说,就是浪费存储空间,节省查询时间。用行话讲,这就是以空间换时间。听起来像是用大炮打蚊子,但事实上,它真的是个大杀器!
PicProse Cover Image.png

什么是冗余字段?

冗余字段,听起来像是数据库界的“多此一举”,但它可不是无用的赘肉。设计数据库时,某一个字段属于一张表,但它同时出现在另一个或多个表,且完全等同于它在其本来所属表的意义表示,那么这个字段就是一个冗余字段。

举个栗子:

假设我们有一个订单表(order)和一个用户表(user)。每当需要查询订单表的所有数据,并且只需要用户表的name字段时,如果没有冗余字段,我们就需要用join连接用户表。假设表中数据量非常大,那么这次连接查询就会非常大地消耗系统的性能。这时候,冗余字段就可以派上用场了!有了冗余字段,我们只查一张表就可以了。

示例代码

-- 没有冗余字段时的查询
SELECT o.order_id, o.product_id, u.name
FROM order o
JOIN user u ON o.user_id = u.user_id;-- 有冗余字段时的查询
SELECT order_id, product_id, user_name
FROM order_with_redundancy;

是不是瞬间觉得效率提升了几个档次?

反范式化的优点

反范式化的最大优点,就是减少了join操作,让数据库执行性能更高更快。想象一下,如果你每天上班都要刷三次卡,是不是感觉很麻烦?但是,如果只刷一次卡就能搞定所有事情,是不是感觉效率倍增?

另外,冗余字段的引入还可以提高数据的可读性和查询的简洁性。再也不用为了找一个小小的信息,翻遍整个数据库。

更多例子

假设我们有一个电商网站,需要频繁查询订单及其相关的用户信息。传统的做法可能是这样:

-- 查询订单及用户信息
SELECT o.order_id, o.product_id, u.name, u.email
FROM order o
JOIN user u ON o.user_id = u.user_id;

这种方法虽然准确,但效率低下。加入冗余字段后,查询就简单多了:

-- 带冗余字段的查询
SELECT order_id, product_id, user_name, user_email
FROM order_with_redundancy;

是不是瞬间感觉世界清净了?

反范式化的缺点

当然,反范式化并非万能药。引入冗余字段后,我们需要付出更多的存储空间。同时,数据的一致性维护变得更复杂,因为我们需要确保冗余字段在多个表中保持同步。

示例代码

-- 插入数据时需要维护冗余字段
INSERT INTO order_with_redundancy (order_id, product_id, user_name, user_email)
VALUES (1, 101, 'Alice', 'alice@example.com');-- 更新数据时需要同步冗余字段
UPDATE order_with_redundancy
SET user_name = 'Alice Updated'
WHERE user_id = 1;

结论

合理地加入冗余字段这个润滑剂,减少join操作,确实可以让数据库执行性能更高更快。当然,任何设计都需要权衡利弊,找到最适合自己项目的方案。数据库设计,就像做菜一样,调料用得好,才能做出色香味俱佳的佳肴。

所以,下次再面对繁重的查询任务时,不妨考虑一下反范式化,给你的数据库加点“料”,让它跑得更快,飞得更高!

http://www.lryc.cn/news/377241.html

相关文章:

  • Stable diffusion 3 正式开源
  • 如何配置node.js环境
  • python tensorflow 各种神经元
  • Gone框架介绍27 - 再讲 Goner 和 依赖注入
  • 【Python/Pytorch 】-- 滑动窗口算法
  • Clickhouse集群create drop database可删除集群数据库或只删除本地数据库
  • 【docker】adoptopenjdk/openjdk8-openj9:alpine-slim了解
  • Vscode interaction window
  • 后端数据null前端统一显示成空
  • 【设计模式深度剖析】【9】【行为型】【访问者模式】| 以博物馆的导览员为例加深理解
  • Salesforce‘s 爱因斯坦机器人助手引领工业聊天机器人时代
  • Day7—zookeeper基本操作
  • 计算机组成原理---Cache的基本工作原理习题
  • springboot项目中切数据库(mysql-> pg)带来的适配问题:typeHandler
  • 从零开始的<vue2项目脚手架>搭建:vite+vue2+eslint
  • Hadoop升级失败,File system image contains an old layout version -64
  • [机器学习算法]决策树
  • springboot应用cpu飙升的原因排除
  • 反激开关电源EMI电路选型及计算
  • vue3前端对接后端的图片验证码
  • 【Unity】RPG2D龙城纷争(四)要诀、要诀数据集
  • 一种基于非线性滤波过程的旋转机械故障诊断方法(MATLAB)
  • HarmonyOS Next 系列之从手机选择图片或拍照上传功能实现(五)
  • 如果xml在mapper目录下,如何扫描到xml
  • 什么是无限铸币攻击?它是如何运作的?
  • 【Android】怎么使APP进行开机启动
  • 详细分析Element Plus的el-pagination基本知识(附Demo)
  • ubuntu换镜像源方法
  • python flask配置邮箱发送功能,使用flask_mail模块
  • Flask快速入门(路由、CBV、请求和响应、session)