当前位置: 首页 > news >正文

CentOS 系统监控项

在维护和优化 CentOS 系统时,实时监控硬件和资源的使用情况非常重要。为了满足工作需要,可以定时采集 CentOS 系统相关的监控数据,并将其推送到 Prometheus 进行集中监控和管理。以下是日常采集项及对应的 shell 命令,并附上每项命令的输出解释。

1. CPU 使用情况

监控 CPU 使用情况可以帮助我们了解系统的负载和性能瓶颈。

  • 采集命令:
    top -b -n1 | grep "Cpu(s)"
    
    输出:
    %Cpu(s):  1.6 us,  1.6 sy,  0.0 ni, 96.8 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
    
    解释:
    • us: 用户空间占用 CPU 百分比(1.6%)
    • sy: 内核空间占用 CPU 百分比(1.6%)
    • ni: 改变过优先级的进程占用 CPU 百分比(0.0%)
    • id: 空闲时间占用 CPU 百分比(96.8%)
    • wa: 等待 I/O 操作占用 CPU 百分比(0.0%)
    • hi: 硬中断占用 CPU 百分比(0.0%)
    • si: 软中断占用 CPU 百分比(0.0%)
    • st: 被虚拟化系统“偷走”的时间占用 CPU 百分比(0.0%)
2. 内存使用情况

监控内存使用情况可以避免系统因为内存不足而崩溃。

  • 采集命令:
    free -m
    
    输出:
                 total        used        free      shared  buff/cache   available
    Mem:          15866        2833        4773         844        8259       11857
    Swap:          2047           0        2047
    
    解释:
    • total: 总内存(15866 MB)
    • used: 已使用内存(2833 MB)
    • free: 可用内存(4773 MB)
    • shared: 共享内存(844 MB)
    • buff/cache: 缓存内存(8259 MB)
    • available: 可用内存(11857 MB)
    • Swap: 交换分区信息(总量 2047 MB,已使用 0 MB,可用 2047 MB)
3. 磁盘使用情况

监控磁盘使用情况可以预防磁盘空间耗尽的问题。

  • 采集命令:
    df -h
    
    输出:
    文件系统                 容量  已用  可用 已用% 挂载点
    devtmpfs                 7.8G     0  7.8G    0% /dev
    tmpfs                    7.8G   28K  7.8G    1% /dev/shm
    tmpfs                    7.8G  747M  7.1G   10% /run
    tmpfs                    7.8G     0  7.8G    0% /sys/fs/cgroup
    /dev/mapper/centos-root  197G   32G  166G   17% /
    /dev/sda1               1014M  239M  776M   24% /boot
    tmpfs                    1.6G     0  1.6G    0% /run/user/0
    
    解释:
    • 容量: 总磁盘空间
    • 已用: 已使用磁盘空间
    • 可用: 可用磁盘空间
    • 已用%: 已使用百分比
    • 挂载点: 磁盘分区挂载点
4. 磁盘 I/O

监控磁盘 I/O 性能,可以了解系统的读写速度和 I/O 瓶颈。

  • 采集命令:
    yum -y install sysstat
    sudo systemctl enable sysstat
    sudo systemctl start sysstat
    iostat
    
    输出:
    Linux 3.10.0-1160.118.1.el7.x86_64 (ops-gy-x86)         2024年07月10日  _x86_64_        (4 CPU)avg-cpu:  %user   %nice %system %iowait  %steal   %idle0.55    0.00    0.51    0.00    0.00   98.94Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
    scd0              0.00         0.00         0.00       1028          0
    sda               1.64         2.03        84.57    3713310  154970876
    dm-0              1.74         2.01        84.55    3690529  154923178
    dm-1              0.00         0.00         0.00       3236          0
    
    解释:
    • tps: 每秒传输次数(包括读写)
    • kB_read/s: 每秒读取的千字节数
    • kB_wrtn/s: 每秒写入的千字节数
    • kB_read: 总读取的千字节数
    • kB_wrtn: 总写入的千字节数
5. 网络使用情况

监控网络使用情况,可以确保网络连接的稳定性和流量的健康状况。

  • 采集命令:
    netstat -i
    
    输出:
    Kernel Interface table
    Iface             MTU    RX-OK RX-ERR RX-DRP RX-OVR    TX-OK TX-ERR TX-DRP TX-OVR Flg
    br-5ed7a40877ed  1500        0      0      0 0             0      0      0      0 BMU
    br-7c60a2b8b408  1500        0      0      0 0             0      0      0      0 BMU
    docker0          1500        0      0      0 0             0      0      0      0 BMU
    ens33            1500 76085290      0      0 0      73441235      0      0      0 BMRU
    lo              65536 240163662      0      0 0      240163662      0      0      0 LRU
    
    解释:
    • Iface: 网络接口
    • MTU: 最大传输单元
    • RX-OK: 接收的正确数据包数
    • RX-ERR: 接收错误的数据包数
    • RX-DRP: 接收丢弃的数据包数
    • RX-OVR: 接收溢出数据包数
    • TX-OK: 发送的正确数据包数
    • TX-ERR: 发送错误的数据包数
    • TX-DRP: 发送丢弃的数据包数
    • TX-OVR: 发送溢出数据包数
    • Flg: 接口标志
6. 系统负载

监控系统的整体负载情况,了解系统的压力和性能瓶颈。

  • 采集命令:
    uptime
    
    top -b -n1 | grep "load average"
    
7. 系统日志

监控系统日志,可以帮助我们发现潜在的问题和错误。

  • 采集命令:
    tail -f /var/log/messages
    
    tail -f /var/log/syslog
    
8. 进程监控

监控系统中的进程,了解哪些进程占用了大量资源。

  • 采集命令:
    按照内存占用排序:
    ps aux --sort=-%mem | head
    
    按照 CPU 占用

排序:

ps aux --sort=-%cpu | head
9. 系统版本

了解系统版本可以帮助我们确定系统的具体配置和兼容性。

  • 采集命令:
    cat /etc/centos-release
    
    uname -a
    
10. CPU 信息

采集 CPU 信息有助于了解系统的计算能力和性能指标。

  • 采集命令:
    cat /proc/cpuinfo
    
11. 内存信息

采集内存信息可以帮助我们了解系统的内存配置和可用情况。

  • 采集命令:
    cat /proc/meminfo
    
12. 磁盘信息

了解磁盘信息有助于我们掌握系统的存储容量和分区情况。

  • 采集命令:
    df -h
    
13. 文件系统信息

采集文件系统信息可以帮助我们了解系统的文件系统类型和挂载点。

  • 采集命令:
    mount | column -t
    
14. 网络接口信息

采集网络接口信息有助于了解系统的网络配置和状态。

  • 采集命令:
    ifconfig -a
    
15. 系统启动时间

了解系统的启动时间可以帮助我们评估系统的运行时间和稳定性。

  • 采集命令:
    uptime
    
    who -b
    
16. 已安装软件包列表

采集已安装的软件包列表有助于了解系统的应用环境和依赖关系。

  • 采集命令:
    rpm -qa
    

结论

通过上述命令,您可以全面地监控 CentOS 系统的硬件和资源使用情况。这些命令不仅有助于系统的维护和优化,还可以为系统的扩展和升级提供重要参考。结合 Prometheus+Grafana,可以实现集中化界面监控和管理,及时发现并解决潜在的问题,提高系统的稳定性和性能。

http://www.lryc.cn/news/399976.html

相关文章:

  • 连锁直营店小程序赋能多店如何管理
  • 决策树算法入门到精通:全面解析与案例实现
  • LangChain —— 多模态大模型的 prompt template
  • ssh升级
  • 51单片机10(蜂鸣器介绍)
  • Python爬虫:基础爬虫架构及爬取证券之星全站行情数据!
  • T113-i 倒车低概率性无反应,没有进入倒车视频界面
  • 【AI大模型】李彦宏从“卷模型”到“卷应用”的深度解析:卷用户场景卷能给用户解决什么问题
  • 25秋招面试算法题 (Go版本)
  • 在Ubuntu 14.04上安装和保护phpMyAdmin的方法
  • 突破与创新:Vue.js 创始人 尤雨溪 2024 年度技术前瞻
  • LeetCode 441, 57, 79
  • 【排序 - 插入排序 和 希尔排序】
  • Java使用 MyBatis-Plus 的 OR
  • [Linux]CentOS软件的安装
  • 4000厂商默认账号密码、默认登录凭证汇总.pdf
  • RK3568笔记三十六:LED驱动开发(设备树)
  • AC修炼计划(AtCoder Regular Contest 180) A~C
  • 云计算练习题
  • 《战甲神兵》开发者报告:游戏崩溃问题80%发生在Intel可超频酷睿i9处理器上——酷睿i7 K系列CPU也表现出高崩溃率
  • Postman下载及使用说明
  • 什么是im即时通讯?WorkPlus im即时通讯私有化部署安全可控
  • hnust 1794: 机器翻译
  • AI人工智能开源大模型生态体系分析
  • ArkTS学习笔记_封装复用之@Styles装饰器
  • 根据vue学习react
  • Hi3861 OpenHarmony嵌入式应用入门--HTTPD
  • MICS2024|少样本学习、多模态技术以及大语言模型在医学图像处理领域的研究进展|24-07-14
  • ConfigMap-secrets-静态pod
  • SQL Error: 1406, SQLState: 22001