如何保证数据库的持久性与一致性:从 Linux 磁盘缓存策略到 MySQL 的设计
在现代数据库系统中,数据一致性和持久性是至关重要的,尤其在面对系统崩溃或电源故障的情况下。操作系统(如 Linux)通过其虚拟文件系统(VFS)和 Page Cache 提供了高效的磁盘缓存机制,旨在提升磁盘 I/O 性能。然而,这种缓存机制本身的延迟写回和周期性刷新策略也存在缺陷,这就要求数据库系统设计出一套独立的机制来保证数据的一致性和持久性。MySQL 就是基于这些需求,设计了自己的事务处理机制,以确保数据在异常情况下的正确恢复。
本文将深入探讨 Linux 磁盘缓存策略的缺陷,以及 MySQL 如何设计出一套 事务持久性与一致性 的保障机制,特别是日志先行原则、redo log、undo log 以及如何通过 fsync()
和 检查点 等技术手段确保系统崩溃后的数据恢复。
1. Linux Page Cache 和磁盘写入策略的缺陷
Page Cache 工作原理
Linux 操作系统通过 Page Cache 提供了高效的磁盘缓存机制。在文件读写操作中,操作系统会首先检查文件是否已经缓存到内存中。如果文件数据已在缓存中,操作系统会直接从内存返回,而不是再进行磁盘 I/O,从而显著提高性能。
然而,这种 写回策略 并非即时的。文件在修改后,操作系统并不会立即将修改的数据写回磁盘,而是将修改内容保留在内存中的缓存中,直到系统空闲或内存压力过大时,周期性地将脏数据(modified pages)刷新到磁盘。这个延迟写回的策略虽然能提高系统的性能,但也导致了潜在的风险。