当前位置: 首页 > article >正文

【Linux】awk 命令详解及使用示例:结构化文本数据处理工具

【Linux】awk 命令详解及使用示例:结构化文本数据处理工具

引言

awk 是一种强大的文本处理工具和编程语言,专为处理结构化文本数据而设计。它的名称来源于其三位创始人的姓氏首字母:Alfred Aho、Peter Weinberger 和 Brian Kernighan。

基本功能

  1. 文本分析:按列/字段处理结构化文本数据
  2. 模式匹配:根据条件筛选文本
  3. 数据处理:支持算术运算和字符串操作
  4. 报表生成:格式化输出结果

工作原理

  1. awk 逐行读取输入
  2. 将每行按分隔符(默认是空格)分割为字段
  3. 对每行应用模式匹配和操作
  4. 输出处理结果

内置变量

  • $0 - 当前整行内容
  • $1, $2, … - 第1个、第2个…字段
  • NF - 当前行的字段数
  • $NF - 最后一个字段
  • NR - 当前处理的行号
  • FNR - 当前文件中的行号
  • FS - 输入字段分隔符(默认为空白字符)
  • OFS - 输出字段分隔符
  • RS - 输入记录分隔符(默认为换行符)
  • ORS - 输出记录分隔符
  • FILENAME - 当前输入文件名

常用选项

  • -F 分隔符 - 指定输入字段分隔符
  • -v var=值 - 设置变量
  • -f 脚本文件 - 从文件读取awk脚本

程序结构

awk程序可以包含三部分:

  • BEGIN { ... } - 在处理文本前执行
  • pattern { action } - 对匹配的每一行执行
  • END { ... } - 在处理完所有文本后执行
awk 'BEGIN {print "开始处理"} {sum += $1} END {print "总和:", sum}' data.txt

控制结构

awk支持常见的编程语言控制结构:

  • 条件:if-else
  • 循环:for, while, do-while
  • 分支:switch
# 使用if条件
awk '{if ($1 > 10) print "大于10:", $0; else print "小于等于10:", $0}' file.txt# 使用for循环
awk '{for(i=1; i<=3; i++) print $i}' file.txt

内置函数

awk提供了丰富的内置函数:

  • 数学函数:sqrt(), sin(), rand()
  • 字符串函数:length(), substr(), index(), match()
  • 时间函数:systime(), strftime()
  • 其他函数:gsub(), system()

使用示例

  • 利用awk命令获取查看用户为root的进程PID信息
ps aux | awk '$1=="root" {print $2}'

  • 利用列出/bin目录下连接文件的创建日期或者是最近的修改日期
ls -l /bin | awk '/^l/ {print $6, $7, $8}'

  • 利用awk指令设置变量a=1,b=3并查找/etc目录下连接文件中第 a , a, ab列的字符信息
ls -l /etc | awk '/^l/ {a=1; b=3; print $a, $b}'

  • 利用awk列出/bin目录下连接文件的权限信息(使用substr内置函数)
ls -l /bin | awk '/^l/ {print substr($1, 1, 10)}'

  • 利用awk命令在/etc/passwd文件中显示以:作为分隔的第1列的数据
awk -F: '{print $1}' /etc/passwd

  • 利用awk命令在/etc/passwd文件中第一个"/“符号前面的字段变为"unknown”
awk -F/ '{$1="unknown"; print}' OFS=/ /etc/passwd

参考资料

  • https://www.runoob.com/linux/linux-comm-awk.html
http://www.lryc.cn/news/2404662.html

相关文章:

  • 紫光同创FPGA系列实现Aurora 8b/10b协议
  • DAY 44 预训练模型
  • [Harmony]颜色初始化
  • 指针与函数参数传递详解 —— 值传递与地址传递的区别及应用
  • 【NLP中向量化方式】序号化,亚编码,词袋法等
  • C++学习-入门到精通【16】自定义模板的介绍
  • 关于脏读,幻读,可重复读的学习
  • 源码级拆解:如何搭建高并发「数字药店+医保购药」一体化平台?
  • 旅行商问题(TSP)的 C++ 动态规划解法教学攻略
  • unix/linux,sudo,其内部结构机制
  • Hadoop 3.x 伪分布式 8088端口无法访问问题处理
  • Redis线程安全深度解析:单线程模型的并发智慧
  • 零基础在实践中学习网络安全-皮卡丘靶场(第十期-Over Permission 模块)
  • 北京大学肖臻老师《区块链技术与应用》公开课:12-BTC-比特币的匿名性
  • [Harmony]网络状态监听
  • 毕设 基于机器视觉的驾驶疲劳检测系统(源码+论文)
  • Ubuntu18.6 学习QT问题记录以及虚拟机安装Ubuntu后的设置
  • Vue3中computed和watch的区别
  • 发版前后的调试对照实践:用 WebDebugX 与多工具构建上线验证闭环
  • 瀚文(HelloWord)智能键盘项目深度剖析:从0到1的全流程解读
  • Shell编程核心符号与格式化操作详解
  • 针对“仅某个地区出现Bug”的原因分析与解决方案
  • 学习STC51单片机30(芯片为STC89C52RCRC)
  • sql中group by使用场景
  • 将HTML内容转换为Canvas图像,主流方法有效防止文本复制
  • Python-进程
  • Paraformer分角色语音识别-中文-通用 FunASR demo测试与训练
  • 【从0-1的CSS】第1篇:CSS简介,选择器以及常用样式
  • 对抗反爬机制的分布式爬虫自适应策略:基于强化学习的攻防博弈建模
  • JDK21深度解密 Day 15:JDK21实战最佳实践总结