当前位置: 首页 > news >正文

hadoop-HDFS

1.HDFS简介

2.1  Hadoop分布式文件系统-HDFS架构

2.2  HDFS组成角色及其功能

(1)Client:客户端

(2)NameNode (NN):元数据节点

管理文件系统的Namespace元数据

一个HDFS集群只有一个Active的NN

(3)DataNode (DN):数据节点

数据存储节点,保存和检索Block

一个集群可以有多个数据节点

(4)Secondary NameNode (SNN):从元数据节点

合并NameNode的edit logs到fsimage文件中

辅助NN将内存中元数据信息持久化

2.3  HDFS副本机制

(1)Block:数据块

HDFS最基本的存储单元,默认块大小:128M(2.x)

(2)副本机制

作用:避免数据丢失

副本数默认为3

存放机制:一个在本地机架节点;一个在同一个机架不同节点;一个在不同机架的节点

2.4  HDFS优缺点

(1)HDFS优点:高容错性;适合大数据处理;流式数据访问;可构建在廉价的机器上

(2)HDFS缺点:不适合低延时数据访问场景;不适合小文件存取场景;不适合并发写入,文件随机修改场景

2.HDFS基本文件操作命令

2.1   准备工作

1)启动单机Hadoop

2)-help:输出这个命令参数

hdfs dfs -help rm

3)创建/install文件夹

hdfs dfs -mkdir /sanguo

2.2 上传

1)-moveFromLocal:从本地剪切粘贴到HDFS

2)-copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去

3)-put:等同于copyFromLocal,生产环境更习惯用put

4)-appendToFile:追加一个文件到已经存在的文件末尾

2.3 HDFS直接操作

1)-ls: 显示目录信息

hadoop fs -ls /sanguo

2)-cat:显示文件内容

hadoop fs -cat /install/shuguo.txt

3)-chgrp、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限

hadoop fs  -chmod 666  /sanguo/shuguo.txt

hadoop fs  -chown  atguigu:atguigu   /sanguo/shuguo.txt

4)-mkdir:创建路径

hadoop fs -mkdir /jinguo

5)-cp:从HDFS的一个路径拷贝到HDFS的另一个路径

hadoop fs -cp /sanguo/shuguo.txt /jinguo

6)-mv:在HDFS目录中移动文件

hadoop fs -mv /sanguo/wuguo.txt /jinguo

hadoop fs -mv /sanguo/weiguo.txt /jinguo

7)-tail:显示一个文件的末尾1kb的数据

hadoop fs -tail /jinguo/shuguo.txt

8)-rm:删除文件或文件夹

hadoop fs -rm /sanguo/shuguo.txt

9)-rm -r:递归删除目录及目录里面内容

hadoop fs -rm -r /sanguo

10)-du统计文件夹的大小信息

hadoop fs -du -s -h /jinguo

27  81  /jinguo

hadoop fs -du  -h /jinguo

14  42  /jinguo/shuguo.txt

7   21   /jinguo/weiguo.txt

6   18   /jinguo/wuguo.tx

       说明:27表示文件大小;81表示27*3个副本;/jinguo表示查看的目录

11)-setrep:设置HDFS中文件的副本数量(集群)

hadoop fs -setrep 10 /jinguo/shuguo.txt

 

这里设置的副本数只是记录在NameNode的元数据中,是否真的会有这么多副本,还得看DataNode的数量。因为目前只有3台设备,最多也就3个副本,只有节点数的增加到10台时,副本数才能达到10。

2.4  进入资源管理器web页面:http://kb129:8088

2.5  查看历史服务器

(1)启动历史服务器:mapred --daemon start historyserver

(2)进入历史服务器网页访问:http://kb129:19888

3. windows中hadoop环境搭建

3.1  解压hadoop313至C盘server目录下,配置环境变量HADOOP_HOME    C:\server\hadoop313

将winutils.exe放至C:\server\hadoop-3.1.3\bin目录下

将hadoop.dll放至C:\Windows\System32目录下

4. Java实现HDFS文件读写

4.1  创建maven工程,quickstart工程

(1)配置依赖

<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency>

4.2  test包中重写AppTest

package org.example;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;import java.io.IOException;/*** Unit test for simple App.*/
public class AppTest {//可操作hdfs文件系统的对象FileSystem hdfs = null;@Beforepublic void init() throws IOException {//构造一个配置参数对象,设置参数 要访问的hdfs的urlConfiguration conf = new Configuration();//指定使用hdfs访问conf.set("fs.defaultFS","hdfs://kb129:9000");System.setProperty("HADOOP_USER_NAME","root");hdfs = FileSystem.get(conf);}//上传本地文件到hdfs@Testpublic void shouldAnswerWithTrue() throws IOException {Path localFilePath = new Path("C:\\Windows\\System32\\drivers\\etc\\services");Path hdfsPath = new Path("/services.txt");//上传hdfs.copyFromLocalFile(localFilePath,hdfsPath);System.out.println("上传成功");}//从hdfs下载文件到本地@Testpublic void downloadFile() throws IOException {Path localFilePath = new Path("D:\\tttttmmmmmppppp");Path hdfsPath = new Path("/services.txt");//下载hdfs.copyToLocalFile(hdfsPath,localFilePath);System.out.println("下载成功");}@Afterpublic void close() throws IOException{hdfs.close();}
}

http://www.lryc.cn/news/148565.html

相关文章:

  • 0202hdfs的shell操作-hadoop-大数据学习
  • 生活小记-挂号信
  • 3D点云处理:基于PCA的计算点云位姿(占位待整理)
  • 本地私有仓库、harbor私有仓库部署与管理
  • 尚硅谷SpringMVC (5-8)
  • jupyter notebook中查看python版本的解决方案
  • 动态字符串 String (完整源码)
  • 【深度学习】实验05 构造神经网络示例
  • 用了这么久SpringBoot却还不知道的一个小技巧
  • Websocket、SessionCookie、前端基础知识
  • 【云原生进阶之PaaS中间件】第一章Redis-2.4缓存更新机制
  • Qt——事件处理详解
  • 基于位置管理的企业员工考勤打卡系统设计 微信小程序
  • adb 查找应用包名,应用 Activity 等信息
  • 八、SpringBoot集成Kafka
  • 联网智能实时监控静电离子风机的工作流程
  • 第12章 微信支付
  • Java基础二十二(对集合元素排序比较)
  • (15)线程的实例认识:同步,异步,并发,并发回调,事件,异步线程,UI线程
  • 长胜证券:华为“黑科技”点燃A股炒作激情
  • Kubernetes(k8s)上部署redis5.0.14
  • frida动态调试入门01——定位关键代码
  • ASP.NET Core 8 的配置类 Configuration
  • MySql增量恢复
  • 设计模式--装饰者模式(Decorator Pattern)
  • Spring三级缓存解决循环依赖
  • Vscode自动移出不用的包
  • leetcode做题笔记120. 三角形最小路径和
  • weblogic/CVE-2018-2894文件上传漏洞复现
  • windows10默认浏览器总是自动更改为Edge浏览器