当前位置: 首页 > news >正文

Mapreduce小试牛刀(1)

1.与hdfs一样,mapreduce基于hadoop框架,所以我们首先要启动hadoop服务器

---------------------------------------------------------------------------------------------------------------------------------

2.修改hadoop-env.sh位置JAVA_HOME配置,在JAVA_HOME前面加上export,重启主虚拟机,最好也把另外两个节点同位置的该配置文件改了

如果这里不配置好JAVA_HOME变量,那么在后续运行时会出现127号报错,显示未找到JAVA_HOME

---------------------------------------------------------------------------------------------------------------------------------

3.修改内存

修改yarn-site.xml文件中的内存大小。一般来说,第一次都分配的1024mb,但是在进行mapreduce运算时,会要求至少1536mb内存。但是不要直接设置为1536mb,不要忘记操作系统也会占用内存!但是也不要设置的太大,以免把本机下爆

---------------------------------------------------------------------------------------------------------------------------------

4.示例1

本地文档单词统计

1.在某一文件夹下,编辑一个txt文件

vi wdtest.txt

2.上传到某一hdfs的目录下

hdfs dfs -put wdtest.txt /input

3.利用hadoop自带的包,进行单词统计

hadoop jar /home/hadoop/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input /output

系统会新建一个叫做ouput的目录收录统计结果(part-r-00000文件)

4.利用cat命令查看统计结果

hadoop fs -cat /output/part-r-00000

---------------------------------------------------------------------------------------------------------------------------------

5.示例2(Hadoop Streaming统计总的字节数)

输入如下代码,结果会在output2目录下显示

mapred streaming \-input /input \                                        -output /output2 \                                  -mapper /bin/cat \-reducer /usr/bin/wc

注意:要连续、完整输入这段代码,输完后会自动开始计算作业!

输入代码,查看统计结果:

hadoop fs -cat /output2/part-00000

分别为行数、单词数、字节数

这里采用了Hadoop Streaming工具集。Hadoop Streaming是Hadoop新推出的一个工具集。这个工具集并不是提供流式计算的功能,而是允许以命令行的方式代替千篇一律的Driver代码。但是与第一种方法相比,它并不能统计出各个单词出现的次数

http://www.lryc.cn/news/259324.html

相关文章:

  • 二百一十七、Flume——Flume拓扑结构之聚合的开发案例(亲测,附截图)
  • vue3+ts+vite+element plus 实现table勾选、点击单行都能实现多选
  • 在WPF窗口中增加水印效果
  • wget下载到一半断了,重连方法
  • Docker笔记:docker compose部署项目, 常用命令与负载均衡
  • Java单元测试:JUnit和Mockito的使用指南
  • 缓存雪崩问题与应对策略
  • python编程需要的电脑配置,python编程用什么电脑
  • 目标检测YOLO实战应用案例100讲-基于深度学习的跌倒检测(续)
  • 05-命令模式
  • Docker安全及日志管理
  • 【LeetCode每日一题】152. 乘积最大子数组
  • Python 反射
  • HTML基本网页制作
  • Tcl语言语法精炼总结
  • [GPT]Andrej Karpathy微软Build大会GPT演讲(下)--该如何使用GPT助手
  • 路由器静态路由的配置
  • [Firefly-Linux] RK3568在Ubuntu上安装内核头文件实现本地编译驱动程序
  • RabbitMQ Streams 详解
  • 跨境电商如何利用跨境客服软件提升销售额
  • css/less/scss代码注意事项
  • Git应用——代码提交规范 feat ,fix ,style
  • TDengine Kafka Connector将 Kafka 中指定 topic 的数据(批量或实时)同步到 TDengine
  • 单片机的低功耗模式介绍
  • 基于SSM实现的精品课程网站
  • 广州旅游攻略(略说一二)
  • C++STL的list模拟实现
  • django--分页功能
  • centOS安装bochsXshell连接centos启动可视化界面
  • mac m2芯片 安装nginx + php + mysql