当前位置: 首页 > news >正文

深入解析Python多服务器监控告警系统:从原理到生产部署

深入解析Python多服务器监控告警系统:从原理到生产部署

整体架构图

image-20250626180939436

核心设计思想

  1. 无代理监控:通过SSH直接获取数据,无需在目标服务器安装代理
  2. 故障隔离:单台服务器故障不影响整体监控
  3. 多级检测:网络层→资源层→服务层层层递进
  4. 幂等设计:支持定时重复执行,避免状态累积

代码深度解析

1. 配置模块 - 灵活的参数管理

# 服务器配置列表
SERVERS = [{"host": "192.168.0.224", "ssh_port": 22, "ssh_user": "root", "ssh_key": "/root/.ssh/server_monitor_key"},# 更多服务器...
]# 监控阈值设置
MEMORY_THRESHOLD = 90  # 内存阈值%
CPU_THRESHOLD = 85     # CPU阈值%
DISK_THRESHOLD = 95    # 磁盘阈值%# 检测参数
DINGTALK_WEBHOOK = "https://oapi.dingtalk.com/robot/send?access_token="
PING_TIMEOUT = 3       # 网络检测超时(秒)
CHECK_INTERVAL = 600   # 检查间隔(秒)
  • 支持多服务器配置,可扩展性强
  • 关键参数集中管理,便于维护
  • 支持不同服务器使用不同认证方式

2. 网络检测模块 - 基于TCP的连通性检查

def check_network(host):try:socket.setdefaulttimeout(PING_TIMEOUT)s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)s.connect((host, 22))  # 检测SSH端口s.close()return Trueexcept Exception:return False
  • 使用TCP连接检测替代ICMP ping,更贴近实际服务可用性
  • 检测SSH服务端口(22),确保监控功能可用
  • 设置超时时间防止阻塞

3. 指标采集模块 - SSH命令执行与解析

def get_server_metrics(server):# 创建SSH客户端ssh = paramiko.SSHClient()ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())try:# 多密钥类型支持try:private_key = paramiko.RSAKey.from_private_key_file(server["ssh_key"])except:try:private_key = paramiko.Ed25519Key.from_private_key_file(server["ssh_key"])except:private_key = paramiko.ECDSAKey.from_private_key_file(server["ssh_key"])# 建立SSH连接ssh.connect(hostname=server["host"],port=server["ssh_port"],username=server["ssh_user"],pkey=private_key,timeout=15,look_for_keys=False,allow_agent=False)# 获取主机名stdin, stdout, stderr = ssh.exec_command("hostname")hostname = stdout.read().decode().strip() or server["host"]# CPU监控命令stdin, stdout, stderr = ssh.exec_command("top -bn1 | grep 'Cpu(s)' | awk -F'[ ,]+' '{print $8}' | tr -d '%' | awk '{print 100 - $1}'")cpu_usage = float(stdout.read().decode().strip())# 更多指标采集...finally:ssh.close()return hostname, alerts
  1. 多密钥算法支持:自动尝试RSA/Ed25519/ECDSA等算法
  2. 安全连接设置:禁用SSH agent和密钥搜索
  3. 主机名获取:优先使用服务器真实主机名
  4. 资源释放:finally块确保SSH连接关闭

4. 告警模块 - 钉钉机器人集成

def send_dingtalk_message(message):"""发送Markdown格式消息到钉钉机器人"""headers = {"Content-Type": "application/json"}# 创建Markdown格式消息markdown_content = "### 🚨 服务器监控告警\n" + message.replace("\n", "\n\n")data = {"msgtype": "markdown","markdown": {"title": "服务器监控告警","text": markdown_content}}try:response = requests.post(DINGTALK_WEBHOOK,data=json.dumps(data),headers=headers,timeout=10)if response.status_code == 200:print("钉钉消息发送成功")else:print(f"钉钉消息发送失败: {response.text}")except Exception as e:print(f"发送钉钉消息时出错: {str(e)}")
  • 添加时间戳便于问题追踪
  • 包含直接访问监控面板的链接
  • 使用emoji增强可读性
  • 支持Markdown格式(加粗、换行等)

监控指标采集技术详解

1. CPU使用率采集

top -bn1 | grep 'Cpu(s)' | awk -F'[ ,]+' '{print $8}' | tr -d '%' | awk '{print 100 - $1}'

命令解析

  1. top -bn1:非交互模式运行top命令
  2. grep 'Cpu(s)':过滤CPU行
  3. awk处理:提取空闲CPU百分比
  4. 100 - 空闲值:计算实际使用率

2. 内存使用率采集

free | awk 'NR==2{printf "%.2f", $3*100/$2 }'

计算原理

总内存 = $2
已用内存 = $3
使用率 = (已用内存 / 总内存) * 100

3. 磁盘使用率采集

df -h | awk '$NF=="/"{printf "%d", $5}'

关键参数

  • $NF=="/":只监控根分区
  • $5:使用率列(已去除%符号)
  • 可根据不同服务器挂载的分区自行调整

4. 进程监控

processes = ["kubelet", "dockerd", "kube-proxy"]
for process in processes:stdin, stdout, stderr = ssh.exec_command(f"pgrep -x {process}")if not stdout.read().decode().strip():missing_processes.append(process)

进程检测逻辑

  • 使用pgrep -x精确匹配进程名
  • 检查返回结果是否为空
  • 支持扩展添加关键进程

生产环境部署指南

系统架构建议

image-20250626181927407

部署步骤

  1. 环境准备

    # 创建专用用户
    sudo useradd -m -s /bin/bash monitor
    sudo passwd monitor# 安装依赖
    sudo apt-get update
    sudo apt-get install python3-pip
    sudo -u monitor pip install paramiko requests
    
  2. SSH密钥配置

    # 生成监控专用密钥
    sudo -u monitor ssh-keygen -t ed25519 -f /home/monitor/.ssh/server_monitor_key# 分发公钥到目标服务器
    for server in ${SERVERS[@]}; dosudo -u monitor ssh-copy-id -i /home/monitor/.ssh/server_monitor_key.pub ${server}
    done
    
  3. 配置文件调整

    # 修改服务器配置
    SERVERS = [{"host": "10.0.1.101", "ssh_port": 22, "ssh_user": "monitor",  # 使用专用账户"ssh_key": "/home/monitor/.ssh/server_monitor_key"  # 正确路径},# 更多服务器...
    ]
    
  4. 系统服务化

    bash

    # 创建systemd服务文件
    sudo tee /etc/systemd/system/server-monitor.service <<EOF
    [Unit]
    Description=Server Monitoring Service
    After=network.target[Service]
    User=monitor
    ExecStart=/usr/bin/python3 /opt/monitor/new_server_monitor.py
    Restart=always
    RestartSec=30[Install]
    WantedBy=multi-user.target
    EOF# 启动服务
    sudo systemctl daemon-reload
    sudo systemctl enable server-monitor
    sudo systemctl start server-monitor
    

日志管理方案

# 查看实时日志
journalctl -u server-monitor -f# 日志轮转配置
sudo tee /etc/logrotate.d/server-monitor <<EOF
/var/log/server-monitor.log {dailymissingokrotate 30compressdelaycompressnotifemptycreate 640 monitor admsharedscriptspostrotatesystemctl restart server-monitor > /dev/nullendscript
}
EOF
http://www.lryc.cn/news/575713.html

相关文章:

  • Linux IPV4/IPV6配置终极指南
  • 解锁AI无限潜能!景联文科技数据产品矩阵再升级:多语言题库、海量语料、垂域代码库,全面赋能大模型训练
  • java解决超大二维矩阵数组引起的内存占用过大问题
  • 【redis使用场景——缓存——数据过期策略 】
  • 新手向:Neo4j的安装与使用
  • CTF:PHP 多关卡绕过挑战
  • Flink部署与应用——Flink架构概览
  • 国外开源客服系统chathoot部署,使用教程
  • 信息化系统流程管理模块,企业高价值资产的跨省/市运输审批流程的功能
  • 网络安全之SQL RCE漏洞
  • AI 口语陪练:教育领域的新变革​
  • AI智能体——OpenManus 源码学习
  • 使用 ReAct 框架在 Ollama 中实现本地代理(Agent)
  • Docker安装Mysql、配置文件挂载、修改Mysql编码
  • Python-7-读取/写入文件数据
  • Rust与Go:GAN实战对决
  • 合规型区块链RWA系统解决方案报告——机构资产数字化的终极武器
  • SQL语句在MySQL中的执行过程
  • python pyecharts 数据分析及可视化
  • Python 将文件夹中的所有文件打包成Zip压缩包
  • easyExcel导入多sheet的Excel,存在合并单元格、列不固定的情况
  • 超实用AI工具分享——ViiTor AI视频配音功能教程(附图文)
  • html 照片环 - 图片的动态3D环绕
  • 渗透实战:使用隐式转换覆盖toString的反射型xss
  • Linux 统一方式安装多版本 JDK 指南
  • python基于协同过滤的动漫推荐系统
  • CSP-J 2021 入门级 第一轮(初赛) 阅读程序(1)
  • CSMA/CD相关习题---谢希仁课后题
  • 数据分享:医学数据集-糖尿病数据集
  • Git 使用规范与命令使用场景详解