当前位置: 首页 > news >正文

阿里微服务质量保障系列:故障演练

对于很多大型企业(如阿里巴巴)来说,经过多年的技术演进,系统工具和架构已经高度垂直化,服务器规模也达到了比较大的体量。当服务规模大于一定量(如10000台)时,小概率的硬件故障每天都会发生。这时如果需要人的干预,系统就无法可靠的伸缩。
为此每一层的系统都会面向失败做设计,对下游组件零信任,确保在故障发生时可以快速的发现和处理。但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。
故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现手段、故障修复能力来达到缩短故障修复时长的作用。
故障演练验证,是指基于混沌工程的故障演练实现对业务系统的验证。演练可以分为有损演练和无损演练,一般通过低频的有损演练发现业务架构问题、验证业务容灾能力,通过高频的无损演练实现对业务的监控发现/报警响应、组织应急等能力进行验证。
演练方案设计理论基础
技术型故障分析归纳,大致可以按照IaaS、PaaS、SaaS的层次进行归类。

image.png


上面的分类是一个宏观视角,不是一个系统设计的视角。所以可以对故障模型再做一次升级,并得到一些推论&#x

http://www.lryc.cn/news/221617.html

相关文章:

  • 基于springboot+vue开发的教师工作量管理系
  • 【NI-DAQmx入门】NI-DAQmx之C、C++、VB、VB.net与C#支持
  • python转xml为json
  • PHP Curl请求封装
  • java list set 特性
  • Docker 用centos 编译安装apache
  • 专访虚拟人科技:如何利用 3DCAT 实时云渲染打造元宇宙空间
  • 第三章:人工智能深度学习教程-基础神经网络(第二节-ANN 和 BNN 的区别)
  • 回归模型原理总结及代码实现
  • 游戏开发中的“御用中介“
  • flink1.15报错 processElement_split
  • 电脑投屏到TCL电视鼠标延迟
  • 220v插座led指示灯维修
  • ​软考-高级-信息系统项目管理师教程 第四版【第19章-配置与变更管理-思维导图】​
  • javascript自定义事件的观察者模式写法和用法以及继承
  • 蓝桥杯官网练习题(正则问题)
  • iOS使用NSURLSession实现后台上传
  • linux之信号
  • golang工程中间件——redis常用结构及应用(string, hash, list)
  • Java中数据结构(基本数据类型+引用数据类型)介绍+整理+例子+对比
  • SpringSecurity原理
  • 云表平台突破传统,企业级低代码让软件开发速度提升
  • 三数之和(双指针)
  • Linux-bluetooth蓝牙
  • mediasoup webrtc音视频会议搭建
  • 【操作系统】操作系统的大端模式和小端模式
  • Oracle(13)Maintaining Data Integrity
  • 工程(十二)Ubuntu20.04LSD_SLAM运行
  • 跨境电商,用指纹浏览器还是VPS?有何区别?
  • R语言piecewiseSEM结构方程模型在生态环境领域实践技术应用