当前位置：首页 > news >正文

Hive实战：实现数据去重

news 2025/8/24 3:19:38

文章目录

一、实战概述
二、提出任务
三、完成任务
- （一）准备数据
- - 1、在虚拟机上创建文本文件
  - 2、上传文件到HDFS指定目录
- （二）实现步骤
- - 1、启动Hive Metastore服务
  - 2、启动Hive客户端
  - 3、基于HDFS数据文件创建Hive外部表
  - 4、利用Hive SQL实现去重
  - 5、检查是否实现去重

一、实战概述

在本次实战任务中，我们利用Hive大数据处理框架对三个文本文件（ips01.txt、ips02.txt、ips03.txt）中的IP地址进行了整合与去重。首先，在虚拟机上创建了这三个文本文件，并将它们上传至HDFS的/deduplicate/input目录下作为原始数据源。接着，启动了Hive Metastore服务和客户端，以管理和访问元数据信息。
通过Hive SQL语句创建了一个外部表unique_ips，该表的每一行存储一个IP地址，字段间采用换行符\n进行分隔，这样便能正确读取到HDFS上的原始IP列表数据。为了实现去重目标，进一步创建了新的内部表deduplicated_ips，并使用DISTINCT关键字从unique_ips表中提取出不重复的IP地址记录。
最后，执行SQL查询语句查看deduplicated_ips表的内容，如果输出结果中不存在重复IP，则表示去重过程顺利完成。整个过程展示了Hive在处理大规模文本数据时，能够高效地进行数据加载、表结构定义、数据清洗以及数据去重等操作，充分体现了其在大数据处理领域的强大功能与便捷性。

二、提出任务

ips01.txt

192.168.1.1
172.16.0.1
10.0.0.1
192.168.1.2
192.168.1.3
172.16.0.2
10.0.0.2
192.168.1.1
172.16.0.1
10.0.0.3

ips02.txt

192.168.1.4
172.16.0.3
10.0.0.4
192.168.1.5
192.168.2.1
172.16.0.4
10.0.1.1
192.168.1.1
172.16.0.1 
10.0.0.1

ips03.txt

192.168.1.6
172.16.1.1
10.0.2.1
192.168.1.7
192.168.3.1
172.16.0.5
10.0.0.5
192.168.1.1
172.16.0.1
10.0.0.3

目标是将这三个文本文件中的IP地址整合并去除重复项，最终得到一个仅包含唯一IP地址的结果集。

192.168.1.1
172.16.0.1
10.0.0.1
192.168.1.2
192.168.1.3
172.16.0.2
10.0.0.2
192.168.1.4
172.16.0.3
10.0.0.3
192.168.1.5
192.168.2.1
172.16.0.4
10.0.1.1
192.168.1.6
172.16.1.1
10.0.2.1
192.168.1.7
192.168.3.1
172.16.0.5
10.0.0.5

三、完成任务

（一）准备数据

1、在虚拟机上创建文本文件

在master虚拟机上使用文本编辑器创建三个文件：ips01.txt, ips02.txt, ips03.txt，并确保每个文件内存储的是纯文本格式的IP地址列表。

2、上传文件到HDFS指定目录

在master虚拟机上创建HDFS上的/deduplicate/input目录，用于存放待处理的原始数据文件。
```
hdfs dfs -mkdir -p /deduplicate/input
```

将本地创建的三个文本文件上传至HDFS的/deduplicate/input目录

hdfs dfs -put ips01.txt /deduplicate/input/
hdfs dfs -put ips02.txt /deduplicate/input/
hdfs dfs -put ips03.txt /deduplicate/input/

（二）实现步骤

1、启动Hive Metastore服务

启动Hive Metastore服务，确保Hive可以正确管理和访问元数据信息

2、启动Hive客户端

打开Hive客户端连接到Hive服务

3、基于HDFS数据文件创建Hive外部表

基于HDFS数据文件创建Hive外部表，执行语句

CREATE EXTERNAL TABLE unique_ips (ip STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\n'
LOCATION '/deduplicate/input';

这里创建了一个名为unique_ips的外部表，字段为单列ip，每一行代表一个IP地址。由于我们的数据文件中每个IP地址占一行，所以字段间用换行符\n分隔。

4、利用Hive SQL实现去重

CREATE TABLE deduplicated_ips AS
SELECT DISTINCT ip FROM unique_ips;

通过上述SQL语句，我们在Hive内部创建了一个新的表deduplicated_ips，其中存储了从unique_ips表中提取的所有不重复的IP地址。

5、检查是否实现去重

最后，检查deduplicated_ips表的内容以确认去重是否成功执行
```
SELECT * FROM deduplicated_ips;
```
若输出结果中没有重复的IP地址，则说明去重任务已经顺利完成。
通过以上步骤，我们成功地利用Hive框架完成了对多个文本文件中的IP地址进行去重的任务，展示了Hive在大数据处理中的强大能力和便捷性。

查看全文

http://www.lryc.cn/news/272794.html

客户满意度调查常用的ChatGPT通用提示词模板

Android--Jetpack--Paging详解

Unity 基于UDP实现本地时间与网络时间校验防客户端修改日期作弊

ArduPilot开源代码之MatekSys Optical Flow 3901-L0X

【时钟】分布式时钟HLC|Logical Time|Vector Clock|True Time

人工智能AI与3D视觉技术的结合正在引领新一代移动机器人的革新

NSSCTF 简单包含

FlinkSQL处理Canal-JSON数据

玩转贝启科技BQ3588C开源鸿蒙系统开发板 —— DevEco Studio下载与安装

大模型上下文长度的超强扩展：从LongLora到LongQLora

pdf格式转换为txt格式

scss使用for循环遍历，动态赋值类名并配置不同颜色

GaussDB数据库使用COPY命令导数

SunFMEA软件免费试用：FMEA的目标和限制是什么？

【Redis交响乐】Redis中的数据类型/内部编码/单线程模型

APK 瘦身

GitHub上的15000个Go模块存储库易受劫持攻击

避免3ds Max效果图渲染一片黑的4个正确解决方法

UI演示双视图立体匹配与重建

添加一个编辑的小功能（PHP的Laravel）

YOLOv8改进 | 主干篇 | ConvNeXtV2全卷积掩码自编码器网络

elasticsearch7.17.9两节点集群改为单节点

二叉树的层序遍历，力扣

构建Dockerfile报错/bin/sh: 1: cd: can‘t cd to /xxx/yyy问题记录

Vue常用的修饰符详解（有哪些，怎么用）

Linux C/C++ 获取CPUID

2023年“中银杯”安徽省网络安全B模块（部分解析）

194.【2023年华为OD机试真题（C卷）】单行道汽车通行时间（迭代计算—JavaPythonC++JS实现）

第二证券机构策略：股指预计维持蓄势震荡格局关注煤炭、电力等板块

Go 泛型之泛型约束

文章目录

一、实战概述

二、提出任务

三、完成任务

（一）准备数据

1、在虚拟机上创建文本文件

2、上传文件到HDFS指定目录

（二）实现步骤

1、启动Hive Metastore服务

2、启动Hive客户端

3、基于HDFS数据文件创建Hive外部表

4、利用Hive SQL实现去重

5、检查是否实现去重

相关文章：