当前位置: 首页 > news >正文

存储异常导致的Oracle重大生产故障

📢📢📢📣📣📣
作者:IT邦德
中国DBA联盟(ACDU)成员,10余年DBA工作经验
Oracle、PostgreSQL ACE
CSDN博客专家及B站知名UP主,全网粉丝10万+
擅长主流Oracle、MySQL、PG、高斯及Greenplum备份恢复,
安装迁移,性能优化、故障应急处理

文章目录

    • 1.异常等待分析
    • 2.查找根因
      • 2.1 分析程序提交
      • 2.2 分析IO性能问题
    • 3.alert日志排查
    • 4.总结

本次的故障案例是发生在Oracle 10G的数据库上,在上午的10点,整个应用处于卡顿的状态,数据库完全是夯住了!这套库之前给客户做过巡检就提出替换存储的建议,这不这次故障存储的问题就暴露出来了,详细的分析过程如下

1.异常等待分析

通过AWR分析看出来,log file sync占比64.2%,属于提交类异常等待

那么到底log file sync是什么呢?

官方的解释为:当用户会话提交时,该会话事务生成的所有重做记录都需要从内存中刷新到重做日志文件中,以确保该事务对数据库所做的更改是永久性的。

2.查找根因

什么原因会造成了很高的log file sync等待呢?

其中的最常见的原因有2个
1.影响 LGWR 的 I/O 性能问题
2.过多的应用程序 commit

2.1 分析程序提交

比较 user commit/rollback 同 user calls 比值的平均值确认提交是否异常


user calls/(user commits+user rollbacks) 本次平均值为60.85= 60.85/(0.98+0.02) ,平均每60.85 次 user calls 就会有一次 commit,提交不是很频繁。

然后在确认LGWR switch是否异常

oracle的推荐值是每15-20分钟切换一次,也就是每小时切换3-4次。如果per Hour大于3-4次,则说明日志文件过小。

2.2 分析IO性能问题

比较’log file sync’和’log file parallel write’的平均等待时间。

很明显log file sync的时间消耗在log file parallel write上的比例高,那么大部分的等待时间是由于 IO(等待 redo 写入)

根据经验,“日志文件并行写入”的平均时间超过5-10毫秒,甚至可能更低,这表明IO子系统存在问题。

同时根据异常等待阻塞事务发现也是大量的log file parallel write阻塞了log file sync,初步判断磁盘的I/O出现了问题。

后来客户反馈,该时间段存储设备为机械盘,出了点问题,导致存储IO性能严重下降。

3.alert日志排查

alert.log日志报了如下的错误,再次证明了以上的判断无误!

当数据库切换日志时,所有private strand都必须刷新到当前日志,然后才能继续,此信息表示我们在尝试切换时,还没有完全将所有 redo信息写入到日志中。

Private Strands是10gR2才有的,它用于处理redo的latch(redo allocation latch),是一种允许进程利用多个allocation latch更高效地将redo写入redo buffer cache的机制。

4.总结

不要把重做日志放在上一代或者较老的机械磁盘上,虽然通常情况下,可能会遇到写峰值,从而导致大量的严重’log file sync’等待并引发数据库性能不稳定或者hung住。

监控其他可能需要写到相同路径的进程,确保该磁盘具有足够的带宽,足以应付所要求的容量。

确保 LOG_BUFFER 不要太大,一个非常大的 log_buffer 的不利影响就是刷新需要更长的等待时间。

http://www.lryc.cn/news/533715.html

相关文章:

  • C语言时间相关宏定义
  • Android Studio:Application 和 Activity的区别
  • 如何优化爬虫以提高搜索效率
  • git撤销上一次的提交
  • LLM学习笔记1——本地部署Meta-Llama-3.2-1B大模型
  • Nginx反代Ollama接口跨域、无法逐字输出问题
  • 大学资产管理系统中的下载功能设计与实现
  • 股指入门:股指期货是什么意思?在哪里可以做股指期货交易?
  • < OS 有关 > 利用 google-drive-ocamlfuse 工具,在 Ubuntu 24 系统上 加载 Google DRIVE 网盘
  • Golang的引用类型和指针
  • 51单片机之冯·诺依曼结构
  • 32. C 语言 安全函数( _s 尾缀)
  • Android T(13) 源码分析 — BufferQueue 的分析
  • Vite+TS项目中配置路径别名
  • 看盘细节系列 篇二:集合竞价的9点18分大单打到3%以下或以上,9点19分撤单
  • Java继承简介
  • redis之哨兵集群搭建
  • 保姆级AI开发环境搭建
  • Arduino 型号的对比
  • Kafka系列之:定位topic只能保存最新数据的原因
  • AtCoder Beginner Contest 391(A~E题题解)
  • mysql mvcc 锁 关系
  • 安卓手机基于 Termux 安装 AList 并设置开机自启的详细教程
  • LeetCode:503.下一个更大元素II
  • 实验5 配置OSPFv2验证
  • 第二节 docker基础之---镜像构建及挂载
  • 论文阅读:MGMAE : Motion Guided Masking for Video Masked Autoencoding
  • 记录一下 在Mac下用pyinstallter 打包 Django项目
  • 【漫话机器学习系列】084.偏差和方差的权衡(Bias-Variance Tradeoff)
  • deepseek本地部署-linux