大数据平台,Hadoop集群架构,概述及原理
目录
一,大数据平台架构概述
1,大数据概念
2,大数据的特征
3,大数据的处理流程和相关技术
4,大数据平台架构的特点
5,大数据平台架构原理
二,Hadoop集群概述
1,HDFS
2,MapReduce
3,YARN
三,Hadoop HA 集群原理
1,HDFS HA 实现原理
2,主备切换
3,Zookeeper的功能原理
4,JournalNode服务原理
Hellow大家好,今天带大家学习大数据平台的概述和原理,以及Hadoop架构平台的运转原理,讲解不死板,通俗易懂。带您轻而易举了解其工作原理。
一,大数据平台架构概述
1,大数据概念
大数据并不是单只大数据本身,而是包括大数据的获取,存储,管理,处理分析,展示等等,大数据,数据量肯定更大,来源渠道更广,处理分析展示,更为麻烦,面对大量的数据如果处理速度慢,那么用户会因体验不佳从而放弃当前页面,大数据的最终目的就是让大量的数据发挥其潜在的巨大价值。
2,大数据的特征
体量大
大数据嘛,为什么叫大数据,就是因为它体量大,来源广,杂,随着互联网,物联网,人工智能,移动互联的发展,人口的不断增多,数据量越来越大,越来越多。
多样性
大数据数据来源广泛且多样,包含结构化,非结构化,半结构化数据,不能以统一的方式存储。
高速性
数据的增长速度和处理速度是大数据高速性的重要体现,在当下,人们对大数据的处理和响应速度要求极高,须达到几秒之内完成。
价值
大数据的核心特征是价值密度低,简单理解就是,数据量大,但其有用的信息,经过处理分析之后却很少。
3,大数据的处理流程和相关技术
大数据的处理流程一般分为四步
大数据的采集
采集须在多台服务器上进行,且不能影响其它业务的正常开展,在采集中,会有重复的数据,所以需要对数据进行预处理,去重,在Hadoop平台架构中,预处理主要通过MapReduce来实现。
大数据的存储
因为数据的多样性,结构化,非结构化,半结构化,根据存储问题,衍生出了HDFS,KFS等分布式文件系统,各种关系型(MySql),非关系型(Redis)应运而生。
大数据的分析和挖掘
因对其处理时间要求极其严格,分为离线处理方式和在线处理方式,如果对时间要求不严格,采用离线方式处理,如果对时间要求苛刻,就采用在线方式处理,它们都将存储到HDFS中,通过HDFS数据作为输入,基于Hadoop