当前位置: 首页 > news >正文

Hadoop简介及单点伪分布式安装

目录

  • 1. 大数据
  • 2. Hadoop简介
  • 3. Hadoop伪分布式安装
  • 4. Hadoop启动
  • 参考

1. 大数据

  大数据的定义:一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合。
  特征:
  1.海量的数据规模
  2.快速的数据流转
  3.多样的数据类型
  4.价值密度低
  上述特征可以缩小成5个特点:大量、高速、多样、价值、真实性。

2. Hadoop简介

  Hadoop是一个由Apache软件基金会开发的分布式系统基础架构,它实现了一个分布式文件系统HDFS。HDFS具有高容错性,可以部署在价格低廉的硬件上,能提供高吞吐量来访问应用程序的数据。Hadoop的另一个核心设计就是MapReduce,MapReduce为海量的数据提供了计算。

3. Hadoop伪分布式安装

  我推荐看Hadoop官网的单点伪分布式安装,一定要完成Pseudo-Distributed Operation中的配置。
  这里我推荐使用Docker,我已经制作好了一个单点伪分布式的Hadoop镜像。拉取该镜像的命令:docker pull mengsui/single_node_hadoop:4.0
  使用该镜像运行容器的命令:docker run -d --gpus all -p 8080:8080 -p 8088:8088 -p 9870:9870 mengsui/single_node_hadoop:4.0(我在其中配置了nvidia-container-toolkit,可以使用宿主机的GPU)。
  9870是WebHDFS的端口,8088是 YARN ResourceManager Web UI的端口,8080是code-server(vscode网页版的端口)。

4. Hadoop启动

  启动命令:start-dfs.sh start-yarn.sh
  关闭命令:stop-dfs.sh stop-yarn.sh
  检查启动是否成功:jps。启动成功,在jps命令下会显示ResourceManager、DataNode、SecondaryNameNode、NameNode、NodeManager。
在这里插入图片描述
  启动完后,直接点击8088和9870端口的连接,即可进入如下界面。
在这里插入图片描述
在这里插入图片描述

参考

吴章勇 杨强著 大数据Hadoop3.X分布式处理实战

http://www.lryc.cn/news/479727.html

相关文章:

  • 网站架构知识之Ansible模块(day021)
  • 是时候用开源降低AI落地门槛了
  • 操作系统学习笔记-5.1-IO设备
  • 页面、组件、应用、生命周期(微信小程序)
  • 书生第四期实训营进阶岛——L2G4000 InternVL 多模态模型部署微调实践
  • 国内 ChatGPT中文版镜像网站整理合集(2024/11/08)
  • SpringBoot整合Liquibase对数据库管理和迁移
  • 太空旅游:科技能否让星辰大海变为现实?
  • [JAVAEE] 面试题(四) - 多线程下使用ArrayList涉及到的线程安全问题及解决
  • Elasticsearch-linux环境部署
  • LeetCode 每日一题 长度为 K 的子数组的能量值
  • 人工智能——小白学习指南
  • go 集成Gin Web开发框架
  • c++ 多态性
  • 块存储、文件存储和对象存储详细介绍
  • 移植 AWTK 到 纯血鸿蒙 (HarmonyOS NEXT) 系统 (9) - 编译现有的AWTK应用程序
  • ssm基于BS的仓库在线管理系统的设计与实现+vue
  • 面试题:Spring(一)
  • MySQ怎么使用语法介绍(详细)
  • 新能源汽车与公共充电桩布局
  • 【GIT】sourceTree的“当前分支“,“合并分支“与“检出分支的区别
  • 【Git】如何在 Git 中高效合并分支:完整指南
  • 成都睿明智科技有限公司抖音电商服务效果如何?
  • 收集的linux命令/Docker命令/git命令
  • DNS域名解析实验
  • Dify 本地部署指南
  • 15分钟学 Go 第 38 天:数据库基础
  • 【Python】图片处理
  • 面相小白的php反序列化漏洞原理剖析
  • 文本转SQL(Text-to-SQL),场景介绍与 Spring AI 实现