当前位置：首页 > news >正文

Linux join命令快速从大文件中匹配内容

news 2025/7/25 20:23:17

一. 作业背景

⏹项目中，每个月都会收集当月的用户支付相关的信息，然后汇总到一个大csv文件中。

作业内容需求：

当月的csv文件共有4000万行数据
客户提供了一个有2万行的文本文件，每一行对应着一个用户的id
现在需要根据2万个用户id去大csv文件中进行检索，将匹配到的数据传给客户。

作业环境需求：

大csv文件中存放在服务器上，因为含有客户敏感信息，只能连接到linux环境上作业
只能使用linux命令来完成

😢遇到的问题

普通匹配需要的话，直接使用grep命令进行匹配即可
如果需要多次匹配的话，可以写若干个grep命令，然后放到一个bash脚本中批量执行
但是本次目标文件数据量庞大，匹配源文件和待匹配的目标文件数量庞大，通过grep命令的话，会消耗很多时间

🧐解决方式

通过join的方式进行文件匹配可以极大提升匹配效率
需要提前对文件进行排序

二. 数据准备

⏹准备40万条数据

(echo "No,姓名,auid,地址"seq 1 400000 | awk 'BEGIN{OFS=","} {printf "%d,user_name_%09d,auid_%09d,地球%d\n", $1, $1, $1, $1}'
) > bigfile.csv

⏹对生成的文件进行二次处理，得到乱序的数据

shuf：对文件按照行进行乱序处理，模拟真实的商用数据
sed -i '1i 要插入的内容'：向第一行插入数据

# 对文件进行乱序处理
grep -v 姓名 bigfile.csv | shuf > shuffled.csv
# 为csv文件添加表头
sed -i '1i No,姓名,auid,地址' shuffled.csv

⏹获取后1千条数据，然后将auid数据输出到一个文件中，模拟客户提供的数据。

tail -n 1000 shuffled.csv | awk -F',' '{print $3}' > auid_list.txt

⏹使用shuf命令随机从auid_list.txt文件中获取1行数据，然后给除了第三个字段的所有字段的前后后添加一个@符号之后，追加到shuffled.csv中，目的是为了模拟有多个auid存在的情况。

shuf -n 1 auid_list.txt：从文件中随机获取一条数据
tee -a shuffled.csv：
- -a表示追加
- 将数据打印到控制台上的同时，将数据追加到shuffled.csv中

grep $(shuf -n 1 auid_list.txt) shuffled.csv | awk -F',' '{OFS = ","$1 = "@" $1 "@"$2 = "@" $2 "@"$4 = "@" $4 "@"print
}' | tee -a shuffled.csv
⇩⇩⇩　⇩⇩⇩
@295178@,@user_name_000295178@,auid_000295178,@地球295178@

可以看到一个auid对应着2条数据

apluser@FengYeHong-HP:0724$ grep -a auid_000295178 shuffled.csv
295178,user_name_000295178,auid_000295178,地球295178
@295178@,@user_name_000295178@,auid_000295178,@地球295178@

三. 数据匹配

3.1 文件排序

⏹sort -k<开始列>[,<结束列>] file：指定排序的字段范围，也就是告诉 sort 从第几列到第几列作为排序依据。

sort -t, -k3,3
- -t,：按照逗号进行分隔
- -k3,3：指定第3列作为排序依据

apluser@FengYeHong-HP:0724$ sort -t, -k3,3 shuffled.csv > all_info_sort.csv
apluser@FengYeHong-HP:0724$ tail all_info_sort.csv
399991,user_name_000399991,auid_000399991,地球399991
399992,user_name_000399992,auid_000399992,地球399992
399993,user_name_000399993,auid_000399993,地球399993
399994,user_name_000399994,auid_000399994,地球399994
399995,user_name_000399995,auid_000399995,地球399995
399996,user_name_000399996,auid_000399996,地球399996
399997,user_name_000399997,auid_000399997,地球399997
399998,user_name_000399998,auid_000399998,地球399998
399999,user_name_000399999,auid_000399999,地球399999
400000,user_name_000400000,auid_000400000,地球400000

apluser@FengYeHong-HP:0724$ sort auid_list.txt > auid_list_sort.csv
apluser@FengYeHong-HP:0724$ tail auid_list_sort.csv
auid_000395846
auid_000395932
auid_000395948
auid_000396121
auid_000396465
auid_000396566
auid_000397508
auid_000398221
auid_000398744
auid_000398933

3.2 join命令匹配数据

-t,：指定通过逗号分割文件
-1 1：指定第1个文件的第1个字段作为join条件
-2 3：指定第2个文件的第3个字段作为join条件

apluser@FengYeHong-HP:0724$ wc -l auid_list_sort.csv
1000 auid_list_sort.csv
apluser@FengYeHong-HP:0724$ join -t, -1 1 -2 3 auid_list_sort.csv all_info_sort.csv > result.csv
apluser@FengYeHong-HP:0724$ wc -l result.csv
1001 result.csv
apluser@FengYeHong-HP:0724$ grep -a auid_000295178 result.csv
auid_000295178,295178,user_name_000295178,地球295178
auid_000295178,@295178@,@user_name_000295178@,@地球295178@

四. 数据整理

⏹通过join命令处理过之后的数据，其指定用来join的字段会跑到第1列，破坏了原有的数据结构

apluser@FengYeHong-HP:0724$ head result.csv
auid_000000333,333,user_name_000000333,地球333
auid_000000835,835,user_name_000000835,地球835
auid_000000922,922,user_name_000000922,地球922
auid_000001206,1206,user_name_000001206,地球1206
auid_000001436,1436,user_name_000001436,地球1436
auid_000001853,1853,user_name_000001853,地球1853
auid_000001925,1925,user_name_000001925,地球1925
auid_000002146,2146,user_name_000002146,地球2146
auid_000002195,2195,user_name_000002195,地球2195
auid_000002798,2798,user_name_000002798,地球2798

⏹可通过awk命令将指定字段的顺序进行调换

awk -F',' '{col1 = $1;for(i=2; i<=3; i++) {printf "%s,", $i}printf "%s", col1for(i=4; i<=NF; i++) {printf ",%s", $i}printf "\n"
}' result.csv > result_handle.csv

处理之后的效果

apluser@FengYeHong-HP:0724$ head result_handle.csv
333,user_name_000000333,auid_000000333,地球333
835,user_name_000000835,auid_000000835,地球835
922,user_name_000000922,auid_000000922,地球922
1206,user_name_000001206,auid_000001206,地球1206
1436,user_name_000001436,auid_000001436,地球1436
1853,user_name_000001853,auid_000001853,地球1853
1925,user_name_000001925,auid_000001925,地球1925
2146,user_name_000002146,auid_000002146,地球2146
2195,user_name_000002195,auid_000002195,地球2195
2798,user_name_000002798,auid_000002798,地球2798

五. 其他方式

⏹除了join之外，awk命令也可以实现快速匹配的需求，只是效率没有join那么高，不过一般也足够用了。

核心思想就是读取源文件和待匹配的目标文件
将源文件中的数据放到数组中，然后指定待匹配的目标文件的第3个字段是否在数组中

awk -F, 'NR==FNR{auid_list[$1]; next} $3 in auid_list' auid_list.txt shuffled.csv > result_handle_awk.csv

通过diff命令可以看到生成的文件一致

apluser@FengYeHong-HP:0724$ diff <(sort result_handle_awk.csv) <(sort result_handle.csv)
apluser@FengYeHong-HP:0724$

查看全文

http://www.lryc.cn/news/599055.html

C语言：20250724笔记（函数-指针）

STL学习（？map容器）

Linux 内核基础统简全解：Kbuild、内存分配和地址映射

量子威胁下的区块链进化：后量子密码学时代的分布式账本革命

《 java 随想录》| 数组

ollama无法拉取模型导致报错

Java并发编程第八篇（CountDownLatch组件分析）

Python Day15 面向对象核心特性笔记及例题分析

深度学习（鱼书）day01--感知机

基于CloudBase+React+CodeBudddy的云上智能睡眠应用开发实践

Rust与YOLO目标检测实战

rust-结构体使用示例

论文阅读：《无约束多目标优化的遗传算法，群体和进化计算》

Eureka-服务注册，服务发现

SpringBoot航空订票系统的设计与实现

华为OpenStack架构学习9篇连载—— 01 OpenStack架构介绍【附全文阅读】

docker pull weaviate 国内拉取失败的问题

java中如何返回一个可以执行返回操作（return action）的函数或对象

rust-枚举

技术赋能多元探索：我的技术成长与行业洞察

【安卓笔记】lifecycle与viewModel

MySQL的底层原理--InnoDB记录存储结构

Ollama（5）服务接口压力测试

PostgreSQL 保留关键字冲突问题：语法错误在 “user“ 或附近的 LINE 1: CREATE TABLE user

Windchill用SQL获取所有组织下的所有用户

CIRL：因果启发的表征学习框架——从域泛化到奖励分解的因果革命

Linux进程间通信：管道机制全方位解读

【MediaTek】AN7563编译wlan_hwifi出现en_npu.c:42:10: fatal error:

【STM32项目】水质检测

【数组的定义与使用】