当前位置: 首页 > news >正文

SQL等价改写优化

or 与 union all的优化
在SQL开发中,我们经常会遇到这样的情况:需要组合多个相似但略有不同的查询结果。大多数开发者本能地使用UNION/UNION ALL来解决,这种方式直观易懂,但在特定场景下却隐藏着巨大的性能浪费。

本案例将从执行原理层面,深入剖析为什么在某些情况下,OR条件能比UNION ALL带来质的性能提升。

  • 第一部分:查询dcc_sys_log表中cause条件为"对端被关闭%"的记录
    select peer_id 对端标识,
    null 源域名,
    null 目标域名,
    alert_type 告警类型,
    log_time 告警时间,
    cause 告警内容,
    deal_log 处理状态,
    deal_staff 处理人,
    deal_time 处理时间,
    remark 备注
    from dcc_sys_log
    where action = ‘disconnect’
    and cause like ‘对端被关闭%’
    and deal_log = ‘deal_log’
    and alert_type = ‘alert_type’
    and log_time >= TO_DATE(‘2024-08-02’, ‘YYYY-MM-DD’)
    and log_time < TO_DATE(‘2024-08-03’, ‘YYYY-MM-DD’) + 1
    – 第二部分:查询dcc_ne_log表中result=0的记录
    union
    (select peer_id 对端标识,
    origin_host 源域名,
    dest_host 目标域名,
    alert_type 告警类型,
    log_time 告警时间,
    cause 告警内容,
    deal_log 处理状态,
    deal_staff 处理人,
    deal_time 处理时间,
    remark 备注
    from dcc_ne_log
    where result = 0
    and cause like ‘parser失败%’
    and deal_log = ‘deal_log’
    and alert_type = ‘alert_type’
    and log_time >= TO_DATE(‘2024-08-02’, ‘YYYY-MM-DD’)
    and log_time < TO_DATE(‘2024-08-03’, ‘YYYY-MM-DD’) + 1)
    union
    – 第三部分:查询dcc_ne_log表中result_code特定值的记录
    (select peer_id 对端标识,
    origin_host 源域名,
    dest_host 目标域名,
    alert_type 告警类型,
    log_time 告警时间,
    cause 告警内容,
    deal_log 处理状态,
    deal_staff 处理人,
    deal_time 处理时间,
    remark 备注
    from dcc_ne_log
    where result_code = ‘DIAMETER_UNABLE_TO_DELIVER’
    and svcctx_id like ‘SR-Timeout%’
    and deal_log = ‘deal_log’
    and alert_type = ‘alert_type’
    and log_time >= TO_DATE(‘2024-08-02’, ‘YYYY-MM-DD’)
    and log_time < TO_DATE(‘2024-08-03’, ‘YYYY-MM-DD’) + 1)
    union
    – 第四部分:查询dcc_sys_log表中cause条件为"接收消息异常%"的记录
    (select peer_id 对端标识,
    null 源域名,
    null 目标域名,
    alert_type 告警类型,
    log_time 告警时间,
    cause 告警内容,
    deal_log 处理状态,
    deal_staff 处理人,
    deal_time 处理时间,
    remark 备注
    from dcc_sys_log
    where action = ‘disconnect’
    and cause like ‘接收消息异常%’
    and deal_log = ‘deal_log’
    and alert_type = ‘alert_type’
    and log_time >= TO_DATE(‘2024-08-02’, ‘YYYY-MM-DD’)
    and log_time < TO_DATE(‘2024-08-03’, ‘YYYY-MM-DD’) + 1)

分析问题
这段SQL的执行过程实际上是:

  1. 四次独立的表扫描:
  • 两次对dcc_sys_log表的完整扫描

  • 两次对dcc_ne_log表的完整扫描

  1. 四次过滤操作:
  • 每个子查询各自应用WHERE条件进行过滤
  1. 三次合并操作:
  • 对四个结果集执行UNION操作,包含排序和去重
  1. 四次重复的公共条件判断:
  • deal_log = ‘deal_log’

  • alert_type = ‘alert_type’

  • 相同的时间范围条件

这种写法的效率问题主要体现在:相同表被多次无谓地扫描,公共条件被重复判断,导致CPU和I/O资源的严重浪费。

精准优化:拆解和合并
经过分析,我们可以看到明显的优化空间:

  1. 相同表的查询合并:
  • 第一部分和第四部分都查询dcc_sys_log表

  • 第二部分和第三部分都查询dcc_ne_log表

  1. 差异点隔离:
  • dcc_sys_log表的差异仅在于cause条件

  • dcc_ne_log表的差异在于result/result_code/svcctx_id条件组合

将这些相似查询通过OR条件合并后的SQL:

– 第一部分:合并对dcc_sys_log的两次查询
select peer_id 对端标识,
null 源域名,
null 目标域名,
alert_type 告警类型,
log_time 告警时间,
cause 告警内容,
deal_log 处理状态,
deal_staff 处理人,
deal_time 处理时间,
remark 备注
from dcc_sys_log
where action = ‘disconnect’
and (cause like ‘对端被关闭%’ or cause like ‘接收消息异常%’)
and deal_log = ‘deal_log’
and alert_type = ‘alert_type’
and log_time >= TO_DATE(‘2024-08-02’, ‘YYYY-MM-DD’)
and log_time < TO_DATE(‘2024-08-03’, ‘YYYY-MM-DD’) + 1
union
– 第二部分:合并对dcc_ne_log的两次查询
select peer_id 对端标识,
origin_host 源域名,
dest_host 目标域名,
alert_type 告警类型,
log_time 告警时间,
cause 告警内容,
deal_log 处理状态,
deal_staff 处理人,
deal_time 处理时间,
remark 备注
from dcc_ne_log
where ((result = 0 and cause like ‘parser失败%’) – 第一个差异条件组合
or (result_code = ‘DIAMETER_UNABLE_TO_DELIVER’ and svcctx_id like ‘SR-Timeout%’)) – 第二个差异条件组合
and deal_log = ‘deal_log’
and alert_type = ‘alert_type’
and log_time >= TO_DATE(‘2024-08-02’, ‘YYYY-MM-DD’)
and log_time < TO_DATE(‘2024-08-03’, ‘YYYY-MM-DD’) + 1
实际应用中的注意事项

  1. 括号使用:在复杂OR条件组合中,正确使用括号确保逻辑正确

where ((result = 0 and cause like ‘parser失败%’)
or (result_code = ‘DIAMETER_UNABLE_TO_DELIVER’ and svcctx_id like ‘SR-Timeout%’))
and deal_log = ‘deal_log’
2. OR vs AND优先级:OR条件比AND优先级低,必要时使用括号明确优先级

  1. 处理NULL值:当OR条件两侧涉及NULL值判断时,需特别注意逻辑正确性

  2. 验证结果一致性:务必确认优化前后结果完全一致

  3. 索引使用情况:通过执行计划检查OR条件是否影响了索引使用

优化效果分析
这个优化带来了几个明显的好处:

  1. 表扫描次数减少:原来需要扫描dcc_sys_log表2次,dcc_ne_log表2次,现在各只需扫描1次

  2. I/O减少:减少了50%的表扫描,相应减少了磁盘I/O操作

  3. 代码简化:代码行数从34行减少到24行,更加简洁易读

  4. 排序操作减少:UNION操作需要对结果进行排序去重,合并后的查询能减少排序工作量

小结
本例通过OR条件替代UNION操作,减少表扫描次数。这种简单却有效的优化方法,在实际工作中经常被忽视。通过识别SQL中的重复访问模式,将相似条件的查询合并,我们可以在不改变业务逻辑的前提下,显著提升SQL执行效率。

在实际优化工作中,建议首先尝试通过EXPLAIN PLAN分析查询性能,然后再决定是使用OR条件还是保留UNION结构,以获得最佳性能。

http://www.lryc.cn/news/572274.html

相关文章:

  • 算法打卡22天
  • Codeforces Round 1032 (Div. 3)
  • Excel学习01
  • Arduino入门教程:11、直流步进驱动
  • 小型语言模型(SLMs)有望重塑自主AI:效率、成本与实际部署
  • tensor向量按任意维度进行切片、拆分、组合
  • 如何将缓存存到客户端浏览器上呢
  • 计算机视觉(Computer Vision, CV)
  • 前端实现即时通讯:短轮询、长轮询、SSE 与 WebSocket 全面解析
  • MySQL层级查询实战:无函数实现部门父路径
  • MyBatis 简介
  • 《超级处理器》怎么安装到WPS/excel(最后有下载地址)
  • 基于Spring Boot+Vue的“暖寓”宿舍管理系统设计与实现(源码及文档)
  • 解锁身心密码:从“心”拥抱健康生活
  • 20250619在Ubuntu20.04.6下编译Rockchip瑞芯微原厂的RK3576的Buildroot系统
  • Zephyr boot
  • Three.js WebGL2.0深度应用:解锁图形渲染新极限
  • 母线槽接头过热隐患难防?在线测温方案实时守护电力安全
  • 408第二季 - 组成原理 - 指令的寻址方式
  • 攻防演练:1.木马后门文件演练
  • 线程之并发限制
  • C语言项目实践——贪吃蛇
  • Python Redis 简介
  • Day05_数据结构总结Z(手写)
  • 设计模式精讲 Day 7:桥接模式(Bridge Pattern)
  • 68、数据访问-crud实验-删除用户完成
  • 优化TCP/IP协议栈与网络层
  • 十年年化50%+的策略如何进化?兼容机器学习流程的量化策略开发,附python代码
  • WOOT BD活动背后的策略与操作
  • openKylin适配RISC-V高性能服务器芯片,携手睿思芯科共拓智算新蓝海