当前位置: 首页 > news >正文

prometheusgrafana实现监控告警

Prometheus负责集群数据的监控和采集,然后传递给grafana进行可视化,集成睿象云可实现监控报警,为了方便操作,可以通过iframe嵌套grafana到指定的页面。

文章目录

    • 1.Grafana集成Prometheus
    • 2.iframe内嵌grafana
    • 3.监控告警

1.Grafana集成Prometheus

修改prometheus/config/prometheus.yml,配置需要监控的集群节点(doirs,zookeeper,hadoop,flink)。
在这里插入图片描述

修改完配置,重启docker。
在这里插入图片描述

访问http://ip地址:9090/targets,可以看到集群各个节点的健康状态。
在这里插入图片描述访问http://ip地址:3000/dashboards
在这里插入图片描述Connections->Data sources添加prometheus数据源,然后新建仪表盘
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
根据id加载对应的仪表盘在这里插入图片描述
flink集群
在这里插入图片描述doris集群
在这里插入图片描述
hadoop集群
在这里插入图片描述zookeeper集群

在这里插入图片描述

2.iframe内嵌grafana

修改grafana/conf/grafana.ini,设置匿名登录。
在这里插入图片描述设置允许嵌套图表。

在这里插入图片描述复制面板的链接
在这里插入图片描述内嵌到指定的网页
在这里插入图片描述

3.监控告警

grafana集成睿象云可以实现邮箱,钉钉,短信和电话等方式告警,以监控flink集群告警邮箱为例,进入睿象云,绑定邮箱。
在这里插入图片描述
监控grafana
在这里插入图片描述得到url链接
在这里插入图片描述
到grafana添加联系点
在这里插入图片描述设置分配策略及通知策略
在这里插入图片描述
在这里插入图片描述添加仪表盘,表达式((flink_jobmanager_job_uptime)-(flink_jobmanager_job_uptime offset 30s))/100用于监控flink集群作业是否正常运行(flink_jobmanager_job_uptime表示job从启动到当前时间的持续运行时间,若当前时间戳减去前30s的时间戳等于0说明运行的job已经挂掉了)
在这里插入图片描述
在这里插入图片描述告警条件设置为当前时刻表达式的取值为0
在这里插入图片描述设置联系点
在这里插入图片描述正常情况下的监控
在这里插入图片描述验证监控告警是否有效

public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);SingleOutputStreamOperator<WordCount> sensorDS = env.socketTextStream("192.168.235.130", 9988).map(new MapFunction<String, WordCount>() {@Overridepublic WordCount map(String s) throws Exception {String[] data = s.split(",");return new WordCount(data[0], Integer.parseInt(data[1]));}});KeyedStream<WordCount, String> sensorKS = sensorDS.keyBy(sensor -> sensor.getWord());WindowedStream<WordCount, String, TimeWindow> sensorWS = sensorKS.window(TumblingProcessingTimeWindows.of(Time.seconds(10)));SingleOutputStreamOperator<String> process = sensorWS.process(new ProcessWindowFunction<WordCount, String, String, TimeWindow>() {@Overridepublic void process(String s, Context context, Iterable<WordCount> elements, Collector<String> out) throws Exception {long startTs = context.window().getStart();long endTs = context.window().getEnd();String windowStart = DateFormatUtils.format(startTs, "yyyy-MM-dd HH:mm:ss.SSS");String windowEnd = DateFormatUtils.format(endTs, "yyyy-MM-dd HH:mm:ss.SSS");long count = elements.spliterator().estimateSize();out.collect("key=" + s + "的窗口[" + windowStart + "," + windowEnd + ")包含" + count + "条数据===>" + elements.toString());}});process.print();env.execute();}

在这里插入图片描述
当断开端口的监听之后,job挂掉了,此时邮箱收到告警信息。
在这里插入图片描述

在这里插入图片描述

http://www.lryc.cn/news/501763.html

相关文章:

  • Ubuntu防火墙管理(五)——ufw源规则解读与修改
  • Docker如何运行一个python脚本Hello World
  • 人工智能-自动驾驶领域
  • [ubuntu18.04]ubuntu18.04安装json-c操作说明
  • 华为eNSP:VRRP
  • Linux--top系统资源命令查看--详解
  • es的join是什么数据类型
  • KV Shifting Attention Enhances Language Modeling
  • 软错误防护技术在车规MCU中应用
  • 遥感图像处理二(ENVI5.6 Classic)
  • 经典文献阅读之--A Fast Dynamic Point Detection...(用于驾驶场景中的动态点云剔除方法)
  • 百度搜索应适用中文域名国家标准,修复中文网址展示BUG
  • 设计模式学习之——适配器模式
  • 服务器数据恢复—热备盘上线过程中硬盘离线导致raid5阵列崩溃的数据恢复案例
  • MetaGPT源码 (Memory 类)
  • 数据结构与算法复习AVL树插入过程
  • 小迪笔记第 五十天 文件包含漏洞 远程包含 本地包含 ctf练习题实战
  • 单片机:实现点阵汉字平滑滚动显示(附带源码)
  • C# 实现 10 位纯数字随机数
  • 分布式全文检索引擎ElasticSearch-基本概念介绍
  • 电子应用设计方案-49:智能拖把系统方案设计
  • 汽车免拆诊断案例 | 2014款保时捷卡宴车发动机偶尔无法起动
  • 电脑怎么设置通电自动开机(工控机)
  • MaxKB进阶:豆包大模型驱动的智能日报小助手
  • Python爬虫之使用xpath进行HTML Document文档的解析
  • 调度系统:使用 Airflow 对 Couchbase 执行 SQL 调度时的潜在问题
  • 【数据结构——查找】二分查找(头歌实践教学平台习题)【合集】
  • 简单网页制作提升用户体验和客户转化
  • 数据类型(使用与定义)
  • VMware:CentOS 7.* 连不上网络