当前位置: 首页 > news >正文

Hadoop学习总结(搭建Hadoop集群(伪分布式模式))

      如果前面有搭建过Hadoop集群完全分布式模式,现在搭建Hadoop伪分布式模式可以选择直接克隆完全分布式模式中的主节点(hadoop001)。以下是在搭建过完全分布式模式下的Hadoop集群的情况进行

      伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。

一、克隆主节点为hadoop0

      对完全分布式模式下的Hadoop集群主节点(hadoop001)进行克隆

点击完成后等待克隆

       克隆完毕

二、修改主机名和hosts、宿主电脑的hosts

      IP不用修改,还是使用hadoop001的IP,所以可以使用远程连接工具(Xshell或者SecurityCRT)进行修改

1、修改主机名为hadoop0

vi /etc/hostname

2、修改主机hosts

vi /etc/hosts

      修改完成后进行重启,可以看到主机名为hadoop0

3、修改宿主机的hosts

通过win+R进入命令提示符页面,然后ping通虚拟机

三、重做免密登录

      使用远程连接工具(Xshell或者SecurityCRT)

      因为是通过对完全分布式模式下的Hadoop集群主节点(hadoop001)克隆的hadoop0,原来已经进行过免密登录了,可以删除原来生成的密钥重新生成新密钥再进行发密钥

以下删除原来生成的密钥重新生成新密钥再进行发密钥

删除原来的密钥

rm -rf .ssh

重新生成密钥

ssh-keygen -t rsa

一直回车

查看

进入 .ssh

cd .ssh

发密钥:ssh-copy-id hadoop0

ssh-copy-id hadoop0

进行查看是否生成

cat authorized_keys

四、修改Hadoop集群节点

进入Hadoop里

cd $HADOOP_HOME/etc/hadoop

1、修改 core-site.xml 文件

 vi core-site.xml

      该文件是Hadoop的核心配置文件,其目的是配置 HDFS 地址、端口号,以及临时文件目录。配置文件中配置了 HDFS 的主进程NameNode运行主机(也就是此次Hadoop集群的主节点位置)同时配置了Hadoop运行时生成数据的临时文件。

添加以下内容
<property><!--用于设置Hadoop的文件系统,由URL指定--><name>fs.defaultFS</name><!--用于指定namenode地址在hadoop0机器上--><value>hdfs://hadoop0:9000</value>
</property>
<!--配置Hadoop的临时目录,默认/tmp/hadoop-${user.name}-->
<property><name>hadoop.tmp.dir</name><!--Hadoop安装路径--><value>/opt/module/hadoop-2.7.4/data</value>
</property>

2、修改 hdfs-site.xml 文件

vi hdfs-site.xml 

          该文件作用于设置 HDFS 的NameNode 和 DataNode 两大进程。

添加以下内容
<property><!--指定 HDFS 副本的数量--><name>dfs.replication</name><value>3</value>
</property>
<!--secondary namenode 所在主机的IP和端口-->
<property><name>dfs.namenode.secondary.http-address</name><value>hadoop0:50090</value>
</property>

3、修改 yarn-site.xml 文件

vi yarn-site.xml

      本文件是 YARN 框架的核心配置文件,需要指定 YARN 集群的管理者。 在配置文件中配置 YARN 的主进程 ResourceManager 运行主机为hadoop0,同时配置了 NodeManager 运行时的附属服务,需要配置为 mapreduce_shuffle 才能正常运行 MapReduce 默认程序。

添加以下内容
<property><!--指定 YARN集群的管理者(ResourceManager)的地址--><name>yarn.resourcemanager.hostname</name><!-- 主机名--><value>hadoop0</value>
</property>
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>

4、修改 slaves 文件

vi slaves

      该文件用于记录 Hadoop 集群所有从节点(HDFS 的 DataNode 和 YARN 的 NodeManager 所在主机)的主机名,用来配合一键启动集群从节点(并且还需要验证关联节点配置了 SSH 免密登录)。打开该配置,先文件删除里面的内容,然后修改为 hadoop0

5、 mapred-site.xml 文件

      该文件不需要修改,因为是通过对完全分布式模式下的Hadoop集群主节点(hadoop001)克隆的hadoop0,在搭建hadoop001集群配置文件已经修改过了

五、格式化文件系统

      通过 Hadoop 集群的安装和配置。此时还不能直接启动集群,因为在初次启动 HDFS 集群时,必须对主节点进行格式化处理

hdfs namenode -format

或者

hadoop namenode -format

       执行上述任意一条都可以对 Hadoop 集群进行格式化。执行命令后,必须出现有 successfully formatted 信息才表示格式化成功

  如果没有出现请检查一下Hadoop 安装和配置文件是否正确 ,如果都正确,则需要删除所有主机的 /hadoop-2.7.4 目录下的 tmp文件夹,重新执行格式化命令,对 Hadoop 集群进行格式化。

注意:格式化只能进行一次,如果多此进行可能会导致服务器运行的java进程不完全


六、启动集群服务

start-all.sh

jps 进行查看

访问HDFS集群状态 http://hadoop0:50070/(集群服务IP + 端口号) 

访问YARN集群状态 http://hadoop0:8088/(集群服务IP + 端口号) 

      如果集群启动不成功可以去看完全分布式模式的搭建文章,里面有解决办法

http://www.lryc.cn/news/208031.html

相关文章:

  • 人性与理性共赢,真心罐头跃过增长的山海关
  • 【Redis】Docker部署Redis数据库
  • 【目标跟踪】多目标跟踪测距
  • 吐血整理,服务端性能测试-Docker部署MySQL/Nginx(详细步骤)
  • 基于单片机设计的智能窗帘控制系统
  • WSL的秘钥被修改了要怎么弄
  • cesium开发引入方式
  • 无缝的链间互操作性:通用消息传递的强大之处
  • minio + linux + docker + spring boot实现文件上传与下载
  • vue ant DatePicker 日期选择器 限制日期可控范围
  • linux 音视频架构 linux音视频开发
  • el-table添加固定高度height后高度自适应
  • Python分享之多进程探索 (multiprocessing包)
  • Boris FX Mocha Pro 2023:Mac/win全能影像处理神器
  • elementUI 特定分辨率(如1920*1080)下el-row未超出一行却换行
  • mac电脑视频处理推荐:达芬奇DaVinci Resolve Studio 18 中文最新
  • OKLink携手CertiK在港举办Web3生态安全主题论坛
  • 王道p40 1.设计一个递归算法,删除不带头结点的单链表L中的所有值为x的结点(c语言代码实现)图解递归
  • 深入浅出排序算法之希尔排序
  • close excel by keyword 根据关键字关闭 excel 窗口 xlwings 方式实现
  • LIO-SAM算法解析
  • vscode 提升小程序开发效率的必备插件与工具
  • 第五章单元测试
  • 【JAVA基础】多线程与线程池
  • HCIA数据通信——交换机(Vlan间的通信与安全)
  • Linux shell编程学习笔记16:bash中的关联数组
  • 浏览器是怎么执行JS的?——消息队列与事件循环
  • IMU预积分的过程详解
  • TypeScript中的类型运算符
  • 【蓝桥杯选拔赛真题03】C++输出字母Y 青少年组蓝桥杯C++选拔赛真题 STEMA比赛真题解析