当前位置: 首页 > news >正文

Shell脚本-cut工具

一、前言

在 Linux/Unix 系统中,cut 是一个非常实用的文本处理命令,用于从文件或标准输入中提取特定列的内容。它特别适用于处理结构化文本数据,例如 CSV 文件、日志文件、配置文件等。

无论是做数据分析、系统监控,还是编写自动化脚本,cut 都是一个不可或缺的工具。

本文将带你全面了解 cut 工具的使用方式,包括:

cut 的基本语法与常用参数
✅ 如何按字符、字节、字段进行提取
cut 在 Shell 脚本中的实战应用
✅ 与其他文本处理命令的联合使用
✅ 实际开发中的常见问题与优化建议

并通过完整的代码示例帮助你快速上手并熟练掌握 cut 的各种高级用法。

二、什么是 cut?

cut 是一个用于 切割文本列 的命令行工具,它可以按照指定的分隔符或固定位置提取数据。

✅ 典型用途包括:

场景示例
提取用户名从 /etc/passwd 提取用户列表
日志分析提取访问日志中的 IP 地址、请求路径
数据清洗从 CSV 文件中提取某几列数据
自动化脚本快速提取变量值、过滤冗余信息

三、cut 基础语法

cut [选项] 文件名

✅ 常用选项说明:

参数描述
-b按字节提取(byte-based)
-c按字符提取(character-based)
-f按字段提取(field-based),默认以制表符 \t 分隔
-d指定字段分隔符(delimiter)
--output-delimiter=STR设置输出时使用的分隔符
-s不输出没有分隔符的行(静默模式)

四、cut 使用示例

✅ 示例1:按字符提取(-c

echo "Hello World" | cut -c1-5

输出:

Hello

💡 -c1-5 表示提取第 1 到第 5 个字符。

✅ 示例2:按字段提取(-f + -d

假设有一个 CSV 文件 data.csv 内容如下:

name,age,city
Alice,28,Beijing
Bob,32,Shanghai
Charlie,25,Guangzhou

提取第二列(年龄):

cut -d',' -f2 data.csv

输出:

age
28
32
25

✅ 示例3:修改输出分隔符(--output-delimiter

cut -d',' -f1,3 data.csv --output-delimiter=' | '

输出:

name | city
Alice | Beijing
Bob | Shanghai
Charlie | Guangzhou

✅ 示例4:只提取有分隔符的行(-s

echo "This line has no delimiter" > test.txt
echo "name:age:city" >> test.txtcut -d':' -f1 -s test.txt

输出:

name

💡 只输出包含分隔符 : 的行。

五、cut 在 Shell 脚本中的应用

✅ 示例1:提取 IP 地址(结合 hostname

ip=$(hostname -I | cut -d' ' -f1)
echo "当前主机IP为:$ip"

✅ 示例2:解析环境变量配置文件

假设 config.env 内容如下:

DB_HOST=localhost
DB_PORT=3306
DB_USER=root

提取所有键名:

grep '=' config.env | cut -d'=' -f1

输出:

DB_HOST
DB_PORT
DB_USER

✅ 示例3:获取 CPU 型号名称(结合 lscpu

lscpu | grep 'Model name' | cut -d':' -f2 | sed 's/^ *//;s/ *$//'

输出类似:

Intel(R) Core(TM) i7-9750H CPU @ 2.60GHz

六、cut 与其他命令的配合使用

✅ 示例1:提取日志中的 URL 并排序去重(cut + sort + uniq

cat access.log | cut -d'"' -f2 | cut -d' ' -f2 | sort | uniq

输出访问过的唯一 URL。

✅ 示例2:统计访问次数最多的 IP(cut + grep + awk

grep 'GET /index.html' access.log | cut -d' ' -f1 | sort | uniq -c | sort -nr | head -n 10

输出访问 /index.html 最频繁的前 10 个 IP。

七、cut 使用技巧总结

技巧说明
✅ 使用 -f 提取字段适用于 CSV、TSV 等格式的数据
✅ 使用 -d 自定义分隔符支持任意字符作为分隔符
✅ 使用 -c 提取固定位置字符适用于格式固定的文本
✅ 使用 -b 提取字节范围处理非 UTF-8 编码文件时有用
✅ 使用 --output-delimiter 修改输出格式控制输出样式更灵活
✅ 结合 grep 过滤后再提取减少无效数据干扰
✅ 与 sortuniqawk 联合使用实现复杂文本处理逻辑

八、cut 实战案例汇总

✅ 案例1:从 /etc/passwd 提取用户名

cut -d':' -f1 /etc/passwd

输出系统中所有用户名。

✅ 案例2:提取 HTTP 请求状态码(access.log)

cut -d'"' -f3 access.log | cut -d' ' -f2

提取每次请求的状态码(如 200、404)。

✅ 案例3:提取邮件地址中的域名部分

echo "user@example.com" | cut -d'@' -f2

输出:

example.com

九、常见问题与解决方法

问题原因解决方案
无法提取正确字段分隔符设置错误检查 -d 参数是否匹配实际分隔符
输出为空字段索引超出范围使用 -f1-3 或检查字段是否存在
多个空格导致误判分隔符不统一使用 tr 或 awk 预处理
输出中文乱码编码不一致使用 iconv 转换编码或检查终端设置
cut 不支持正则表达式功能有限使用 awk 或 perl 替代

十、总结对比表:cut 常用参数一览

参数功能
-b按字节提取
-c按字符提取
-f按字段提取
-d自定义字段分隔符
--output-delimiter设置输出分隔符
-s静默模式,仅输出有效行

十一、结语

感谢您的阅读!如果你有任何疑问或想要分享的经验,请在评论区留言交流!

http://www.lryc.cn/news/593916.html

相关文章:

  • 零基础学习性能测试第一章-理解程序运行原理,需要什么资源
  • 第十四届全国大学生数学竞赛初赛试题(非数学专业类)
  • CSS 单位完全指南:掌握 em、rem、vh、vw 等响应式布局核心单位
  • gradle微服务依赖模版
  • PHPStorm携手ThinkPHP8:开启高效开发之旅
  • 用 Jetpack Compose 写 Android 的 “Hello World”
  • RCE随笔(1)
  • RK3588 安卓adb操作
  • C++ - 仿 RabbitMQ 实现消息队列--服务端核心模块实现(一)
  • RK3588 编译 Android 13 镜像方法
  • 状态管理与团队协作 - SRE 的核心关切
  • c#:TCP服务端管理类
  • 第一章: 初识 Redis:背后的特性和典型应用场景
  • c#:管理TCP服务端发送数据为非16进制
  • 网络原理——IP
  • CentOS 服务器docker pull 拉取失败
  • Docker 在 Ubuntu 系统中的详细操作指南
  • 【Docker-Day 7】揭秘 Dockerfile 启动指令:CMD、ENTRYPOINT、ENV、ARG 与 EXPOSE 详解
  • Docker实战:使用Docker部署envlinks极简个人导航页
  • 企业级安全威胁检测与响应(EDR/XDR)架构设计
  • 如何解决pip安装报错error subprocess-exited-with-error问题
  • Twisted study notes[2]
  • 六年级数学知识边界总结思考-下册
  • 在Ubutu22系统上面离线安装Go语言环境【教程】
  • 传染病监测(六):随机模型 —— 为什么小规模疫情像掷骰子?
  • 【LeetCode 热题 100】200. 岛屿数量——DFS
  • MCP实战案例|Trae2.0 一键创建旅行助手并一键部署EdgeOne
  • axios二次封装-单个、特定的实例的拦截器、所有实例的拦截器。
  • Laravel 原子锁概念讲解
  • sqli-labs靶场通关笔记:第34-37关 宽字节注入的其他情况