当前位置: 首页 > news >正文

4.2-7 运行MR应用:词频统计

文章目录

  • 1. 准备数据文件
  • 2. 文件上传到HDFS指定目录
    • 2.1 创建HDFS目录
    • 2.2 上传文件到HDFS
    • 2.3 查看上传的文件
  • 3. 运行词频统计程序的jar包
    • 3.1 查看Hadoop自带示例jar包
    • 3.2 运行示例jar包里的词频统计
  • 4. 查看词频统计结果
  • 5. 在HDFS集群UI界面查看结果文件
  • 6. 在YARN集群UI界面查看程序运行状态
  • 7. 失败状态原因分析与解决

在这里插入图片描述

1. 准备数据文件

首先,我们需要在Hadoop集群的主节点上准备数据文件,用于词频统计MapReduce作业。

  • 在master云主机上创建一个名为 test.txt 的文件。

2. 文件上传到HDFS指定目录

接下来,我们将本地文件系统上的数据文件上传到HDFS的指定目录。

2.1 创建HDFS目录

  • 执行命令:hdfs dfs -mkdir -p /wordcount/input 来创建HDFS目录。

2.2 上传文件到HDFS

  • 执行命令:hdfs dfs -put test.txt /wordcount/input 来上传文件。

2.3 查看上传的文件

  • 执行命令:hdfs dfs -ls /wordcount/input 来查看目录中的文件。
  • 执行命令:hdfs dfs -cat /wordcount/input/test.txt 来查看文件内容。
  • 也可以通过Hadoop WebUI界面来查看文件。

3. 运行词频统计程序的jar包

我们将使用Hadoop自带的示例jar包来运行词频统计程序。

3.1 查看Hadoop自带示例jar包

  • 切换到MR示例目录:执行命令 cd $HADOOP_HOME/share/hadoop/mapreduce
  • 列出目录信息:执行命令 ls
  • 找到示例程序jar包:hadoop-mapreduce-examples-3.3.4.jar

3.2 运行示例jar包里的词频统计

  • 执行命令:hadoop jar ./hadoop-mapreduce-examples-3.3.4.jar wordcount /wordcount/input/test.txt /wordcount/output 来运行词频统计程序。

4. 查看词频统计结果

  • 执行命令:hdfs dfs -ls /wordcount/output 来查看结果文件。
  • 执行命令:hdfs dfs -cat /wordcount/output/* 来查看词频统计的结果内容。

5. 在HDFS集群UI界面查看结果文件

  • 通过HDFS集群UI界面查看 /wordcount/output 目录下的文件。

6. 在YARN集群UI界面查看程序运行状态

  • 在浏览器中访问 http://master:8088 来查看YARN集群的界面。
  • 观察应用程序的运行状态,例如 application_1728606339394_0001

7. 失败状态原因分析与解决

如果作业失败,可能是因为 mapred-site.xml 文件中没有配置必要的环境变量。

  • 配置必要的环境变量:
    <configuration><!-- 配置项 --><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop-3.3.4</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop-3.3.4</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop-3.3.4</value></property>
    </configuration>
    
  • 修改配置后,需要将配置分发到所有节点,并重启Hadoop服务。

通过以上步骤,我们完成了一个词频统计的MapReduce作业,从准备数据到运行作业,再到查看结果。这个过程展示了Hadoop MapReduce作业的基本流程和一些常见的配置问题及其解决方法。

http://www.lryc.cn/news/469335.html

相关文章:

  • 查看Chrome安装路
  • 深入剖析Canvas的getBoundingClientRect:精准定位与交互事件实现
  • SQL SERVER 2005/2008/2012/2016/2020 数据库状态为“可疑”的解决方法(亲测可用)
  • Linux: network: wireshark IO图的一个问题
  • TMGM平台可靠么?交易是否安全?
  • 软工毕设开题建议
  • Python自动化发票处理:使用Pytesseract和Pandas从图像中提取信息并保存到Excel
  • 新手直播方案
  • 【大模型理论篇】主流大模型的分词器选择及讨论(BPE/BBPE/WordPiece/Unigram)
  • 入侵检测算法平台部署LiteAIServer视频智能分析平台行人入侵检测算法
  • 000010 - Mapreduce框架原理
  • OpenCV未定义标识符CV_XXX
  • flask服务通过gunicorn启动
  • 用更多的钱买电脑而不是手机
  • 10.25学习
  • 用xshell给服务器上传jar包
  • 从零搭建开源陪诊系统:关键技术栈与架构设计
  • java List<Map<String, Object>> 转 List<JSONObject> 的几种方式
  • 使用Python来下一场深夜雪
  • uniapp使用easyinput文本框显示输入的字数和限制的字数
  • 蓝牙技术的多种模式详解
  • 攻防世界-流量分析WP
  • 打印爱心型
  • WASM 使用说明23事(RUST实现)
  • Visual studio 下载安装
  • jEasyUI 创建自定义视图
  • SpringMVC6-SpringMVC的视图
  • echarts给Y轴的不同轴线设置不同的颜色的样式
  • 从0到1构建 UniApp + Vue3 + TypeScript 移动端跨平台开源脚手架
  • 论文笔记:LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry