当前位置: 首页 > news >正文

Hadoop之WordCount测试

1、Hadoop简介:

Hadoop是Apache旗下的一个用Java语言实现的开源软件框架,是一个开发和运行处理大规模数据的软件平台。

Hadoop的核心组件包括Hadoop分布式文件系统(HDFS)和MapReduce编程模型。HDFS是一个高度容错的系统,用于存储大规模数据集,具有高可靠性、高扩展性和高吞吐率的特点。MapReduce则是一个用于处理这些数据集的编程模型,它简化了并行编程的复杂性,使得开发者可以专注于业务逻辑的实现。

Hadoop的优势在于其高可靠性、高扩展性、高效性、高容错性以及低成本。它能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。此外,Hadoop还提供了一个完备的生态系统,包括了许多与之配合使用的开源工具和组件,如Hive、Pig、HBase、ZooKeeper等,这些工具可以快速地构建数据分析和处理系统。

很多Hadoop应用都是基于WordCount所代表的MapReduce编程模型变化而来,因此,WordCount可以算是入门Hadoop的“Helloworld”程序,本文将详细说明如何运行一个WordCount任务。

2、Ubuntu安装Hadoop

详见:Ubuntu安装Hadoop3.4-CSDN博客

3、WordCount测试

启动Hadoop:

start-all.sh

在Hadoop中创建测试文件夹

$ hdfs dfs -mkdir /user
$ hdfs dfs -mkdir /user/hadoop

上传本地文件至hadoop用作后续测试:

$ hdfs dfs -put /home/hadoop/training/hadoop-3.4.0/etc/hadoop /user/hadoop/input

查看上传的文件:

hdfs dfs -ls /user/hadoop/input

在share/hadoop目录中有一些示例jar包,我们将运行hadoop-mapreduce-examples-3.4.0.jar来完成词频统计任务。

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar wordcount /user/hadoop/input /user/hadoop/output

完成此任务需要一些时间,需要耐心等待,可以在终端看到运行过程。

WordCount任务完成后,将output下载至本地:

hdfs dfs -get /user/hadoop/output output

查看词频统计结果:

http://www.lryc.cn/news/453505.html

相关文章:

  • Vue和axios零基础学习
  • STM32新建工程-基于库函数
  • matlab入门学习(二)矩阵、字符串、基本语句、函数
  • PC端微信小程序如何调试?
  • 点击按钮提示气泡信息(Toast)
  • 【易社保-注册安全分析报告】
  • 155. 最小栈
  • 用Manim实现高尔顿板(Galton Board)
  • OpenCV视频I/O(7)视频采集类VideoCapture之初始化视频捕获设备或打开一个视频文件函数open()的使用
  • vue3+vite@4+ts+elementplus创建项目详解
  • Python 从入门到实战34(实例2:绘制蟒蛇)
  • Visual Studio C# 处理和修复 WinRiver II 测量项目 MMT 文件错误
  • JAVA实现大写金额转小写金额
  • 如何使用ssm实现基于SSM的宠物服务平台的设计与实现+vue
  • 【C++学习笔记 21】C++中的动态数组 vertor
  • MongoDB 快速入门+单机部署(附带脚本)
  • 组合数求法汇总
  • Python知识点:在Python编程中,如何使用Joblib进行并行计算
  • matlab-对比两张图片的CIElab分量的差值并形成直方图
  • (十七)、Mac 安装k8s
  • 信息学奥赛一本通 2087:【22CSPJ普及组】解密(decode) | 洛谷 P8814 [CSP-J 2022] 解密
  • 【重学 MySQL】四十八、DCL 中的 commit 和 rollback
  • Java面试八股之认证授权
  • RCE_绕过综合
  • 关于Generator,async 和 await的介绍
  • Redis数据库与GO(二):list,set
  • c++知识点总结
  • 无IDEA不Java:快速掌握Java集成开发环境
  • 9.30学习记录(补)
  • 移动应用中提升用户体验的因素