当前位置: 首页 > news >正文

hadoop3跑第一个例子wordcount

1、创建目录

hdfs dfs -mkdir -p /user/input

2、创建测试文件,并上传文件到hdfs

echo '1' > 1.txt
hdfs dfs -put 1.txt /user/input

3、进入hadoop-3目录,并创建测试文件

cd /app/hadoop-3

创建目录
mkdir wcinput
cd wcinput
保存wc.input
nano wc.input

hadoop yarn
hadoop mapreduce
spark
spark

上传文件

hdfs dfs -put wcinput/wc.input /user/input/

4、使用词频测试wordcount

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/input/ /user/output

问题:
如果卡住很久,修改更改mapred-site.xml文件将

<property><name>mapreduce.framework.name</name><value>yarn</value>
</property>

改为:

<property><name>mapreduce.job.tracker</name><value>hdfs://此处为自己的电脑IP:8001</value><final>true</final></property>

再次运行即可。

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/input/ /user/output

另一种可以尝试的方法是修改:yarn-site.xml
删除cpu和内存配置的相关内容,重启yarn。
参考文章:
https://blog.csdn.net/lwprain/article/details/142280497?spm=1001.2014.3001.5501
5、输出统计结果

hdfs dfs -cat /user/output/*

6、修改hdfs的权限 不一定用

hdfs dfs -chmod -R 755 / 

7、常用地址
http://192.168.6.19:9870/ 查看文件
http://192.168.6.19:8088/查看mapreduce情况
8、删除输出目录

hdfs dfs -rm -R /user/output

9、如果跑例子时提示出错,找不到resource-types.xml文件,则
nano etc/hadoop/resource-types.xml ,添加后可能会导致yarn无法启动,目前尚未找到原因。
内容如下:

<configuration><property><name>yarn.resource-types</name><value>resource1, resource2</value></property><property><name>yarn.resource-types.resource1.units</name><value>G</value></property><property><name>yarn.resource-types.resource2.minimum</name><value>1</value></property><property><name>yarn.resource-types.resource2.maximum</name><value>1024</value></property>
</configuration>

10、 提示错误:Couldn’t preview the file. NetworkError: Failed to execute ‘send’ on ‘XMLHttpRequest’: Failed to load
hdfs-site.xml 增加内容,用于web预览文件

<property><name>dfs.webhdfs.enabled</name><value>true</value>
</property>

11、如果windows下需要预览文件
在C:\Windows\System32\drivers\etc\hosts
增加: 192.168.6.19 master 即可

http://www.lryc.cn/news/443614.html

相关文章:

  • Maven笔记(二):进阶使用
  • Apache ZooKeeper 及 Curator 使用总结
  • 深入探索:MATLAB中的硬件支持包(HSP)及其应用
  • 5.内容创作的未来:ChatGPT如何辅助写作(5/10)
  • Day26_0.1基础学习MATLAB学习小技巧总结(26)——数据插值
  • SQL进阶技巧:火车票相邻座位预定一起可能情况查询算法 ?
  • 神经网络构建原理(以MINIST为例)
  • 【ArcGIS微课1000例】0123:数据库中要素类批量转为shapefile
  • 【Elasticsearch系列十九】评分机制详解
  • 神经网络通俗理解学习笔记(3)注意力神经网络
  • 【C#】 EventWaitHandle的用法
  • 设计模式之结构型模式例题
  • camtasia2024绿色免费安装包win+mac下载含2024最新激活密钥
  • 如何导入一个Vue并成功运行
  • 封装svg图片
  • tomcat的Catalinalog和localhostlog乱码
  • 行人持刀检测数据集 voc yolo
  • 基于51单片机的汽车倒车防撞报警器系统
  • NLP 文本匹配任务核心梳理
  • FastAPI 的隐藏宝石:自动生成 TypeScript 客户端
  • 了解云容器实例云容器实例(Cloud Container Instance)
  • OpenStack Yoga版安装笔记(十三)neutron安装
  • [系列]参数估计与贝叶斯推断
  • 【Pyside】pycharm2024配置conda虚拟环境
  • 【RabbitMQ 项目】服务端:数据管理模块之消息队列管理
  • SDKMAN!软件开发工具包管理器
  • 《使用 LangChain 进行大模型应用开发》学习笔记(四)
  • gbase8s数据库常见的索引扫描方式
  • 边缘智能-大模型架构初探
  • 《python语言程序设计》2018版第8章18题几何circle2D类(上部)