当前位置: 首页 > news >正文

Kubernetes生产环境健康检查自动化指南


核心脚本功能

  1. 一键检查集群核心组件状态
  2. 自动化扫描节点/Pod异常
  3. 存储与网络关键指标检测
  4. 风险分级输出(红/黄/绿标识)

一、自动化巡检脚本 (k8s-health-check.sh)
#!/bin/bash
# Desc: Kubernetes全维度健康检查脚本
# 执行要求:kubectl配置+Popeye安装# 核心组件检查
check_core_components() {echo "===== 集群核心组件检查 [高风险] ====="kubectl get componentstatuses | awk '$2 != "Healthy" {printf "\033[31mCRITICAL\033[0m: %s 状态异常\n", $1; exit 1}{printf "\033[32mPASS\033[0m: %s 状态正常\n", $1}'# ETCD集群检测 (需提前配置etcdctl证书)etcdctl endpoint health 2>&1 | grep -v "health: true" && \echo -e "\033[31mCRITICAL\033[0m: ETCD节点异常" || \echo -e "\033[32mPASS\033[0m: ETCD集群健康"
}# 节点健康检查
check_nodes() {echo "===== 节点健康巡检 ====="# 节点就绪状态kubectl get nodes --no-headers | awk '$2 != "Ready" {count++}END {if(count>=2) {printf "\033[31mCRITICAL\033[0m: %d个节点NotReady\n", count; exit 1}else if(count>0) {printf "\033[33mWARN\033[0m: %d个节点NotReady\n", count}else {print "\033[32mPASS\033[0m: 所有节点Ready"}}'# 资源使用率(依赖metrics-server)kubectl top nodes --no-headers | awk '{cpu=$3; mem=$5;sub(/%/, "", cpu); sub(/%/, "", mem);if (cpu>=95 || mem>=95) {printf "\033[31mCRITICAL\033[0m: 节点%s CPU=%d%% MEM=%d%%\n", $1, cpu, mem}else if (cpu>=85 || mem>=85) {printf "\033[33mWARN\033[0m: 节点%s CPU=%d%% MEM=%d%%\n", $1, cpu, mem}}'
}# 工作负载检查
check_workloads() {echo "===== Pod状态检查 ====="# 异常Pod检测kubectl get pods --all-namespaces --field-selector=status.phase!=Running,status.phase!=Completed -o wide | grep -v "No resources" && \echo -e "\033[31mCRITICAL\033[0m: 存在异常Pod" || \echo -e "\033[32mPASS\033[0m: 无Pending/CrashLoopBackOff状态Pod"# 容器重启次数kubectl get pods --all-namespaces -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.containerStatuses[].restartCount}{"\n"}{end}' | \awk '$2>5 {printf "\033[33mWARN\033[0m: Pod %s 重启%d次\n", $1, $2}'
}# 存储系统检查
check_storage() {echo "===== 存储健康检查 ====="# PVC绑定状态kubectl get pvc --all-namespaces | awk '$2 != "Bound" {print $0; exit 1}' && \echo -e "\033[31mCRITICAL\033[0m: 存在未绑定PVC" || \echo -e "\033[32mPASS\033[0m: PVC均正常绑定"# PostgreSQL连接数示例 (需替换实际参数)PG_POD=$(kubectl get pod -n db -l app=postgres -o name | head -1)kubectl exec -n db $PG_POD -- psql -U postgres -c "SELECT count(*) FROM pg_stat_activity" | \awk 'NR==3 && $1>1024 {printf "\033[33mWARN\033[0m: 数据库连接数过高(%d)\n", $1}'
}# 网络检查
check_network() {echo "===== 网络服务检查 ====="# DNS解析延迟测试kubectl run dns-test --image=busybox:1.28 --rm -it --restart=Never -- \sh -c "time nslookup kubernetes.default" 2>&1 | grep real | \awk -F'm' '{print $2*60+$3}' | awk '$1>5 {printf "\033[33mWARN\033[0m: DNS解析延迟%.2fs\n", $1}'
}# 证书过期检查
check_certs() {echo "===== 证书有效期检查 [高风险] ====="kubectl config view --raw -o jsonpath='{..certificate-data}' | base64 -d | \openssl x509 -enddate -noout | awk -F'=' '$1=="notAfter" {cmd="date -d \""$2"\" +%s";cmd | getline exp;close(cmd);now=systime();diff=(exp-now)/86400;if(diff<90) printf "\033[31mCRITICAL\033[0m: 证书将在%.0f天后过期\n", diff}'
}### 执行所有检查 ###
check_core_components
check_nodes
check_workloads
check_storage
check_network
check_certs# 使用Popeye做深度扫描
echo "===== 运行Popeye集群扫描 ====="
popeye --out=html > /tmp/popeye-report.html && \echo "报告已保存: /tmp/popeye-report.html"

二、关键巡检项说明与阈值
检查维度自动化实现方式风险阈值
API Server健康kubectl get componentstatuses非Healthy状态即高风险
节点资源使用率kubectl top nodesCPU/Mem ≥85% 告警,≥95% 严重
Pod重启次数Pod注解restartCount>5次为异常
PVC绑定状态kubectl get pvc非Bound状态即高风险
DNS解析延迟临时Pod执行nslookup>5s 警告
证书有效期解析Kubeconfig证书有效期<90天高风险

三、自动化部署建议
  1. 定时任务配置(每日巡检):

    # 将脚本加入CronJob
    kubectl create cronjob k8s-daily-check --image=bitnami/kubectl:latest \--scheme="0 8 * * *" \-- /bin/sh -c "curl -sL https://raw.githubusercontent.com/ops/k8s-health-check.sh | bash && aws s3 cp /tmp/popeye-report.html s3://my-bucket/reports/"
    
  2. Prometheus关键告警规则(示例):

    # 内存泄漏检测
    - alert: NodeMemoryPressureexpr: (1 - node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100 > 85for: 10mlabels:severity: warningannotations:summary: "节点内存压力 ({{ $labels.instance }})"
    

四、紧急事件处理流程

当脚本输出 CRITICAL(红色) 时:

  1. Master组件异常:立即检查kube-apiserver/etcd日志
  2. 节点NotReady
    kubectl cordon <NODE_NAME>    # 停止调度
    kubectl drain <NODE_NAME>     # 驱逐Pod
    
  3. 证书即将过期
    kubeadm certs renew all       # 使用kubeadm更新证书
    

最佳实践补充

  • 探针配置:Java应用设置initialDelaySeconds: 120避免频繁重启
  • 存储扩容:当PVC使用率>80%时自动触发扩容(需配置CSI StorageClass)
  • 日志跟踪:集成ELK过滤ERROR日志并统计占比(>5%触发告警)
http://www.lryc.cn/news/617905.html

相关文章:

  • 7.Java的继承
  • 北京朝阳区中小学生信息学竞赛选拔赛C++真题
  • 左子树之和
  • 【数据可视化-86】中国育儿成本深度可视化分析(基于《中国统计年鉴2023》数据):用Python和pyecharts打造炫酷可视化大屏
  • 矩阵游戏(二分图最大匹配)
  • (3万字详解)Linux系统学习:深入了解Linux系统开发工具
  • MCU中的存储器映射(Memory Map)
  • Docker 网络-单机版
  • 在 .NET Core 5.0 中启用 Gzip 压缩 Response
  • js异步操作 Promise :fetch API 带来的网络请求变革—仙盟创梦IDE
  • Qwen2.5-vl源码解读系列:ImageProcessor
  • Android14 QS编辑页面面板的加载解析
  • Android中Activity销毁底层原理
  • GSON 框架下百度天气 JSON 数据转 JavaBean 的实战攻略
  • Mysql——Sql的执行过程
  • 从 0 到 1:用 MyCat 打造可水平扩展的 MySQL 分库分表架构
  • Linux-常用命令
  • 深入解析 resolv.conf 文件:DNS 配置的核心
  • 驱动_ConfigFS多级目录操作
  • 光功率dBm为何是负数?一文详解
  • Google OAuth 配置步骤指南,实现Google Drive文件同步功能。
  • UVM验证—UVM 简述
  • 快速了解TF-IDF算法
  • 逐际动力开源运控 tron1-rl-isaacgym 解读与改进
  • 自由学习记录(81)
  • 5B 参数,消费级显卡可部署:Wan2.2-TI2V-5B 本地部署教程,9分钟跑出电影级大片!
  • 【运维进阶】WEB 服务器
  • GB17761-2024标准与电动自行车防火安全的技术革新
  • Redis 数据结构及特点
  • 【工作笔记】Wrappers.lambdaQuery()用法