当前位置: 首页 > news >正文

大数据技术之Hadoop(二)

目录

一、Hadoop的诞生

二、大数据概述

三、大数据软件生态

3.1 数据存储相关技术

3.2 数据计算相关技术

3.3 数据传输相关技术

四、什么是Hadoop


Hadoop绍。

一、Hadoop的诞生

大数据的发展与日益庞大的数据量是密不可分的。从2000年左右开始,全球互联网逐步建成。各大企业和政府机构有海量数据亟须解决。

08年之前,大数据技术是大型企业的高精尖技术。08年之后,因为Hadoop的开源,使得一些中小企业也能运用大数据技术,处理日益庞大的数据量了。

从Hadoop开始,大数据就开始蓬勃发展起来了。从它上面推生出众多的技术栈。

二、大数据概述

使用分布式技术完成海量数据的处理,得到数据蕴藏的价值。

大数据的5个主要特征

 一句话总结就是:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。

由此得出大数据的三大核心工作海量数据计算存储传输

三、大数据软件生态

3.1 数据存储相关技术

Apache Hadoop框架内的组件HDFS

是大数据体系中使用最为广泛的分布式存储技术

Apache HBase

HBase是大数据体系内使用非常广泛的NoSQL kv型数据库技术

HBase是基于HDFS之上构建的技术。

Apache Kudu

Apache Kudu同样为大数据体系中使用较多的分布式存储引擎。

云平台存储组件

各大云平台厂商也有相应的大数据存储组件。如阿里云的OSS,AWS的S3等等。

3.2 数据计算相关技术

Apache Hadoop框架内的组件MapReduce

 

Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献!

Apchache Hive

 

Apache Hive是一款以SQL为主要开发语言的分布式计算框架。其底层使用了Hadoop的MapReduce技术。

Apache Hive诞生很早,至今仍活跃在大数据一线,被许多公司使用。

Apache Spark

Apache Spark是目前全球范围内最火热的分布式内存计算引擎

是大数据体系中的明星计算产品。

Apache Flink

 

Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域,Flink占据了大数据的国内市场。

3.3 数据传输相关技术

Apache Kafka

 

Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。

Apache Kafka在大数据领域也是明星产品。

Apache Pulsar

 

Apache Pulsar同样也是一款分布式的消息系统。在大数据领域中也有非常多的使用者。

Apache Flume

Apache Flume是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。

🍑PS:以上只是列举了大数据技术中的一部分,实际上还包含很多技术。这里就不一一列举了。

四、什么是Hadoop

简单说,Hadoop包含:

分布式数据存储技术(HDFS)

分布式数据计算技术(MapReduce)

分布式资源调度技术(YARN)

从前面讲解中,我们可以清楚的发现,Hadoop包含了大数据三大核心任务的前两个:海量数据的计算和存储。

关于Hadoop的版本分为两种,一种是Apache官方的开源社区版,另一种是各商业公司根据开源社区版个性化定制的商业发行版。本教程主要以开源社区版为例进行讲解。

 

http://www.lryc.cn/news/106959.html

相关文章:

  • 运维工程师第二阶段linux基础
  • ChatGPT安全技术
  • 使用cmd查看3568主板相关
  • SpringBoot限制(限流)接口访问频率
  • 蓝桥杯,我劝你不要参加的8个完美理由
  • ChatGPT及其工作原理;OpenAI申请注册商标GPT-5,引发关注
  • [C++项目] Boost文档 站内搜索引擎(2): 文档文本解析模块parser的实现、如何对文档文件去标签、如何获取文档标题...
  • 若依框架vue使用Element 如何把当前页面的所有Table表格row.id和一个表单的16个字段内容通过js传Java后台,Java后台是如何接收的
  • 迁移学习:使用Restnet预训练模型构建高效的水果识别模型
  • 浅谈机器视觉
  • 助力保险行业数字化创新,麒麟信安参展2023中国财险科技应用高峰论坛
  • eclipse was unable to locate its companion shared library
  • 【MySQL】使用C/C++连接MySQL数据库
  • 【Python】从同步到异步多核:测试桩性能优化,加速应用的开发和验证
  • 使用checkBox组件时,动态设置disabled,仍能触发click事件的原因及解决办法
  • 【JavaScript】如何进行除法运算且保留小数部分不参与四舍五入【推荐库bignumber.js 】
  • 掌握Java JDK 1.8 API帮助文档中文版,事半功倍编程
  • Spring Boot的自动配置原理
  • NFS服务器
  • 说明学习委员之作业管理系统—后端部分
  • 质数(判定质数 分解质因数 筛质数)
  • SAP数据库表维护视图生成器的使用
  • 数据结构 | 递归
  • 微信发视频怎么不压缩画质?试试这几招
  • 【网络安全带你练爬虫-100练】第16练:使用session发送请求
  • 论文代码学习—HiFi-GAN(3)——模型损失函数loss解析
  • CLion中avcodec_receive_frame()问题
  • Linux安装操作(Mac版本)
  • Linux(四)--包软件管理器与Linux上软件的下载示例
  • HTML <param> 标签