当前位置：首页 > news >正文

大数据量查询计算引发数据库CPU告警问题复盘

news 2025/7/23 10:41:21

大数据量查询计算引发数据库CPU告警问题复盘

一、背景
二、根因分析
三、解决方案
- 方案1：多线程+缓存
- 方案2：利用中间表+缓存
四、总结

一、背景

2025年7月份某天，CDP系统每天不定时推送我们的Portal服务，生产环境运营看板会展示统计数据，发现接口响应缓慢，随之而来数据库监控告警，发现数据库CPU达到了80%。由于表数据量大，计算统计复杂，多线程使用不当，导致数据库服务器爆表。
其中A表数据量达到1亿多，B表数据量600w+，C表数据量30w+，D表数据量400w+.

二、根因分析

1：涉及A、B、C、D四张表的关联查询，数据量巨大。
2：页面查询条件组合较多，初步估计数据量10亿+，而且日期条件多变，无法使用预计算方式提升查询效率。
3：CDP不定时同步，导致每次存量数据无法基线，增量数据的统计依赖于存量数据，故无法使用增量方式计算结果。
4：1次查询搜索，会调用6个接口，1个接口查询数据库6+次，整体耗时较久。

三、解决方案

方案1：多线程+缓存

1：前端查询接口，先查询缓存，如果查询到则直接返回结果。如果查询不到，再查询缓存并将结果更新到缓存中。
2：在后端接口计算中，采用多线程方式，并行计算，然后再统计结果。
3：但是这个方案有个弊端是在缓存中查询不到时候还会查询数据库，接口响应依然缓慢，而且生产环境会产生许多慢SQL。所以，此方案不采纳。

方案2：利用中间表+缓存

1：分析这四张表发现，最大的表A仅仅起到连接的作用，运营看板计算数据主要来自于B表数据量600w+和C表数据量30w+。因此，新增E表，将所需要的A表与D表的关联数据通过定时任务方式同步到E表，最后E表中数据量为400w+，相比与直接关联A表和D表，数据量整体降低了几百万，后续直接关联查询B表数据量600w+、C表数据量30w+和E表400w计算即可。
2：前端查询接口，先查询缓存，如果查询到则直接返回结果。如果查询不到，再查询缓存并将结果更新到缓存中。