当前位置: 首页 > news >正文

云卷云舒:面向业务的智能运维(上)

1、BAIOPS-业务智能运维

智能运维(AIOps-Algorithmic IT Operations基于算法的IT运维)是人工智能技术在IT运维领域的运用,引用Gartner 的报告的一段话“到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps,远远高于今天的10%”,最近2-3年智能运维的概念随处可见,各大互联网公司、传统IT公司、金融业等都在谈他们的智能运维设想,同时也有人谈AI色变,觉得人工智能只是一个愿景,要落地很难。其实AI已经不是一个新的概念了,百度、微软、谷歌等公司早就在10几年前开始自己的人工智能布局了,到现在均已成为人工智能行业的领跑者了。

话不多说,人工智能那么强大,应用场景十分的广泛,当然也包括运维领域,而且面向业务的运维更是运维发展的热点趋势,下面我就和大家就“面向业务的智能运维体系建设的探索与实践”这个话题发表下我的个人见解。

2、传统运维-痛之又痛

传统的运维中,存在着诸多痛点:

(1)被动低效的运维难以保证业务连续性

  • 运维人员往往扮演着事后“救火”的角色,待事故发生后才去处理;

  • 数据分散在多处,出了故障无法快速修复,业务连续性难以有效保障;

  • 随着业务复杂性不断提高,人工运维的成本呈指数级增长。

(2)缺乏统一的运维监控体系和技术工具

  • 针对不同运维实体的烟囱式的运维工具,功能重叠、难以整合;

  • 运维的自动化程度偏低,运维脚本泛滥,层次化、模块化程度不足;

  • 监控、运维、告警平台林立,各成体系,缺乏统一化体系。

(3)海量的运维数据的价值无法充分挖掘

  • 传统运维系统收集了大量的运维数据,但是却缺乏有效的手段加以分析和利用;

  • 运维数据的利用仅限于简单的可视化和浅度的分析上,缺乏纵向数据的关联挖掘,无法快速定位故障根因;

  • 固定式的阈值告警造成了大量的误判和漏判,而且人工调整阈值的方式也比较费时费力。

(4)缺乏全方位端到端的运维监控手段

  • 大部分的运维监控仅停留在针对主机、网络的层面,忽略了业务层面的识别手段,故障的发生无法从最直接的业务层面得以发现,产生预警;

  • 性能管理大多停留在服务单应用性能的管理和分析上,无法提供端到端的掌控。更不用说使用云产品了,云数据库的稳定性保障机制可参考。

3、业务智能运维的切入点

针对上述这些传统运维中存在的痛点,智能化的运维出现必定具有划时代的意义,智能运维系统的设计可以从如下几方面进行展开思考:

1)面向业务维度实现异常检测

业务运维是运维的大趋势,需从最复杂的业务维度入手,根据业务维度的指标(如PV、响应时间、错误率、GC等)上的异动进行异常检测,提前预警;

(2)提供业务全局关系视图

业务应用维度的复杂性是运维过程中最高的,往往是二线和三线运维之间界限最模糊的区域,所以智能运维可以先解决的就是向用户提供全面、清晰的业务关系视图,让运维人员对业务应用的掌控得心应手;

(3)KPI可视化与下钻定位

KPI指标可以通过丰富的可视化手段展示给运维人员,业务系统的故障可以清晰的体现在可视化终端,同时支持详细的下钻手段,直至定位到发生故障的环节,甚至代码段;

(4)采用动态阈值思想的异常检测

避免传统固定阈值告警的弊端,引入机器学习算法来进行阈值动态化的异常检测效果;

(5)重视故障的全流程管理

故障发生时,可以提供一定的手段将业务层面的KPI异常与引起故障的原因联系起来,支持手动下钻之余还可以自动定位和关联;

(6)立体化监控体系的建设

覆盖从资源、平台层、应用监控和微服务调用链的立体化的运维分析能力。

注:部分内容参考互联网,如有侵权,请留言便于笔者及时处置。

http://www.lryc.cn/news/266282.html

相关文章:

  • centos 7.4 docker
  • 零基础学人工智能:TensorFlow 入门例子
  • go从0到1项目实战体系二一:gin框架安装
  • 运用JavaSE知识实现图书管理系统
  • 微信小程序生成一个天气查询的小程序
  • Seata源码——TCC模式解析02
  • 缓存-Redis
  • PADS Layout安全间距检查报错
  • ebpf基础篇(二) ----- ebpf前世今生
  • 我的一天:追求专业成长与生活平衡
  • 【动态规划】斐波那契数列模型
  • 机器人运动学分析与动力学分析主要作用
  • 【Java 基础】33 JDBC
  • Unity中Shader缩放矩阵
  • Nessus详细安装-windows (保姆级教程)
  • Stream流的简单使用
  • 智能优化算法应用:基于蛇优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码
  • vue和react diff的详解和不同
  • 智能优化算法应用:基于鹈鹕算法3D无线传感器网络(WSN)覆盖优化 - 附代码
  • 10:IIC通信
  • 互联网上门洗衣洗鞋小程序优势有哪些?
  • Java中如何优雅地根治null值引起的Bug问题
  • C# WPF上位机开发(子窗口通知父窗口更新进度)
  • XUbuntu22.04之跨平台容器格式工具:MKVToolNix(二百零三)
  • vue中的生命周期和VueComponent实例对象
  • Hooked协议掀起WEB3新浪潮
  • 【图文教程】windows 下 MongoDB 介绍下载安装配置
  • 算法复杂度-BigO表示法
  • 测试理论知识五:功能测试、系统测试、验收测试、安装测试、测试的计划与控制
  • 太阳能爆闪警示灯