当前位置: 首页 > news >正文

你在地铁上修过bug吗?

作为技术人员,有没有遇到下班路上收到老板电话,系统故障,然后地铁上掏出电脑,修bug的场景。自己负责的业务线上出现问题,负责人心里是很慌的,在这种心理状态下做事很容易二次犯错,造成更大的问题。

但是线上业务在高速迭代的过程中,出现问题,又总是难免的。这个时候,对业务系统建立完备的监控体系是十分有必要的。

监控的目标是及时发现系统问题,并尽可能快地做出相应的动作,让系统处于一种健康状态。

监控,顾名思义就是监视和控制

监视:通过采集业务日志,系统运行指标等,观察系统运行状况,实现快速定位问题的目的。

控制:采用一定的技术手段,解决问题,使系统恢复正常状态。

定位问题是一件考验一个技术人员技术能力和对系统熟悉程度的事情,需要业务系统输出的日志等信息作为线索,顺藤摸瓜,细心排查,才能最终定位到问题。

解决问题是一个对技术人员工作经验要求比较高的事情,把问题解决是最基本的要求,同时还要考虑解决问题的效率,对业务的影响程度等。

解决问题的方式有很多,可能大部分技术人员都十分崇拜那种,直接在线上改bug,然后发布,告警消失,系统趋于稳定。但是这种解决问题方式对技术人员的技术能力、心理素质都有较高的要求,并不是所有技术人员都能做到的,这种解决问题的方案,很难普适。

这里小编介绍一种简单粗暴的解决问题的方案,对于大部分技术人来说操作起来都比较简单。

在讨论这种方案之前,我们先来讨论一下问题产生原因,问题的产生绝大部分的原因来自于“变化”,这里的变化怎么理解呢?

这里的变化分为两种:
1.业务系统功能迭代,发版。有没有同感,绝大部分情况下,产生线上问题,都是发版导致的。

2.业务流量变化:业务运营活动产生突发流量。

既然是变化导致的问题,那么消灭变化,让系统回归到变化前的状态,是不是就解决了问题了,如果没有解决,说明变化没有消灭彻底。

怎么消灭变化呢?

对于第一种:通常的做法是版本回退,业务功能回退,sql脚本回退等。

对于第二种:系统具有限流的功能,或者快速扩缩容的能力。

总结来说就是:流控和版本回退,简单,粗暴。但对于任何线上问题,都可以采用这种方案,这种方案可能没有直接在线上解决问题那么“酷”,但是,对技术人员的专业能力依赖不高,是一个标准化的流程,甚至可以做到自动化,二次出错概率很小。

而且作为一个技术人员,一定要转变一下思维方式:不解决bug,也可以解问题,并不一定要硬刚bug,要考虑解决方案对业务的影响。技术的价值是通过业务体现的,尤其是对于做业务的同学来说,技术nb,并不一定能给你带来成长,你支撑的业务nb,才能体现你的价值。

http://www.lryc.cn/news/256562.html

相关文章:

  • CPU、MCU、MPU、DSP、FPGA各是什么?有什么区别?
  • SpringBoot之logback 在Linux系统上启动的时候,设置日志按日期分割并设置指定时间自动清除日志
  • OpenHarmony北向-让更广泛的应用开发者更容易参与
  • 数据结构之归并排序及排序总结
  • 仿windows12网盘,私有云盘部署教程,支持多种网盘
  • 深度学习 时间序列回归学习笔记
  • 【postgresql】ERROR: INSERT has more expressions than target columns
  • Android Kotlin语言下的文件存储
  • Verilog 入门(八)(验证)
  • vue3 vue-router 导航守卫 (五)
  • Git命令---查看远程仓库
  • 12.8作业
  • 算法:有效的括号(入栈出栈)
  • vxworks常用的指令归纳
  • 线性回归实战
  • stm32 使用18B20 测试温度
  • 【Delphi】一个函数实现ios,android震动功能 Vibrate(包括3D Touch 中 Peek 震动等)
  • 国产Type-C PD芯片—接口快充取电芯片
  • pytorch学习6-非线性变换(ReLU和sigmoid)
  • 详解Keras3.0 Models API: Whole model saving loading
  • Spring Cloud Gateway 网关的基础使用
  • 小米手机锁屏时间设置为永不休眠_手机不息屏_保持亮屏
  • lightdb plorasql集合类型新增可变数组
  • 算法--最短路
  • Linux 定时任务备份MySQL数据库
  • 查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
  • 外观模式 rust和java的实现
  • uniapp-hubildx配置
  • Nginx基础篇:Nginx搭建、Nginx反向代理、文件服务器部署配置。
  • 什么是TDR(威胁检测与响应)