当前位置：首页 > news >正文

五花八门客户问题(BUG) - 数据库索引损坏

news 2025/7/21 7:22:30

问题

曾经有个客户问题，让我们开发不知所措了很久。简单点说就是客户的index周期性的损坏，即使全部重建后经历大约1~2周数据update后也会坏掉。导致的直接结果：select出来的数据不对。问题很严重。

直接看损坏的index文件看不出什么蛛丝马迹，因为它已经面目全非。所以我们一直想拿到第一条导致update出错的insert、update，或者delete.

开始探索

沿着上面提到的思路，给力的support写了一个trigger，只要每次更新（insert、update，或者delete）数据，trigger就调用index检查程序检查index文件是否有问题。客户也比较配合的部署上了，但是只过了几天就禁用掉了，因为每次检查index文件都耗时巨大，直接拖慢了客户business performance。

另寻他路

除了trigger，我们还可以出diagnostic build, 基本就是往怀疑的地方加log，此种办法耗时耗力：先在对应的版本上改代码-> 编译 -> 发给客户 -> 客户部署，重启数据库. 一般来往一次耗时一两周，而且一次都不一定成功。

后来我又想出一个办法：客户发我们问题表，同时我们帮客户记录下客户的所有更新直到select结果不对。我们有继承数据（index没问题的表），在实验室一条条的重复更新客户操作即可。这个办法涉及客户数据，取决于他们在不在乎。好在客户不care这些。

BUG

后来我们真的在实验室重现了，罪魁祸首竟然是index建在最后一个字段大量更新后就会有问题。看来测试不能放过任何一种情况啊，起码得设计三个字段然后所有可以创建index的列的组合都要设计test case。

附加产出

如何记录客户的更新：我们有一个replication功能（本人负责），正常是把更新发给另外一台机器的，但也可以暂时不发而是写入一个log文件，于是我拿到log文件就拿到了客户的更新。

把log文件中的更新写入表：我写了一个replay.py解析log文件中的每一条更新，调用数据库接口写入表中。

http://www.lryc.cn/news/256655.html

相关文章：

mysql select count 非常慢

Tomcat管理功能使用

kyuubi整合flink yarn session mode

err_connect_length_mismatch错误

dva的学习总结

Docker部署.NET6项目

Pandas 打开有密码的Excel

CCF 202104-2：邻域均值--C++

基于JAVA+SpringBoot+Vue的前后端分离的医院信息智能化HIS系统

Kotlin Flow 操作符

HarmonyOS4.0从零开始的开发教程08构建列表页面

分布式环境下的session 共享-基于spring-session组件和Redis实现

docker基本管理和相关概念

Linix服务器添加dns解析

llama.cpp部署(windows)

STM32CubeMX+micro_ros_stm32cubemx_utils库

C语言有哪些预处理操作？

数据结构算法-希尔排序算法

php使用vue.js实现省市区三级联动

软件测试：测试用例八大要素模板

C语言进阶之路之顶峰相见篇

第76讲：MySQL数据库中常用的命令行工具的基本使用

初级数据结构（二）——链表

Kubernetes架构及核心部件

RAW和YUV的区别

Linux常见问题-获取日志方法总结（Ubuntu/Debian）

【机器视觉技术栈】03 - 镜头

判断一个Series序列的值是否为单调递减Series.is_monotonic_decreasing

CSPNet: A New Backbone that can Enhance Learning Capability of CNN（2019）

本科毕业论文查重的依据