当前位置: 首页 > news >正文

Hadoop组件

前言

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。

HDFS(hadoop分布式文件系统)

是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。

Mapreduce(分布式计算框架)

mapreduce是一种计算模型,用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作,生成键-值对形式中间,reduce则对中间结果中相同的键的所有值进行规约,以得到最终结果。

  • jobtracker:master节点,只有一个,管理所有作业,任务/作业的监控,错误处理等,将任务分解成一系列任务,并分派给tasktracker。
  • tacktracker:slave节点,运行 map task和reducetask;并与jobtracker交互,汇报任务状态。
  • map task:解析每条数据记录,传递给用户编写的map()并执行,将输出结果写入到本地磁盘(如果为map—only作业,则直接写入HDFS)。
  • reduce task:从map 它深刻地执行结果中,远程读取输入数据,对数据进行排序,将数据分组传递给用户编写的reduce函数执行。

hive(基于hadoop的数据仓库)

hive定于了一种类似sql的查询语言(hql)将sql转化为mapreduce任务在hadoop上执行。

hbase(分布式列存数据库

hbase是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库。和传统关系型数据库不同,hbase采用了bigtable的数据模型:增强了稀疏排序映射表(key/value)。其中,键由行关键字,列关键字和时间戳构成,hbase提供了对大规模数据的随机,实时读写访问,同时,hbase中保存的数据可以使用mapreduce来处理,它将数据存储和并行计算完美结合在一起。

zookeeper(分布式协作服务)

解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等。

spark

spark是个开源的数据 分析集群计算框架,最初由加州大学伯克利分校AMPLab,建立于HDFS之上。spark与hadoop一样,用于构建大规模,延迟低的数据分析应用。spark采用Scala语言实现,使用Scala作为应用框架。

spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。

与hadoop不同的是,spark与Scala紧密集成,Scala象管理本地collective对象那样管理分布式数据集。spark支持分布式数据集上的迭代式任务,实际上可以在hadoop文件系统上与hadoop一起运行(通过YARN,MESOS等实现)。

storm

storm是一个分布式的,容错的计算系统,storm属于流处理平台,多用于实时计算并更新数据库。storm也可被用于“连续计算”,对数据流做连续查询,在计算时将结果一流的形式输出给用户。他还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。

http://www.lryc.cn/news/126198.html

相关文章:

  • jeecg-boot批量导入问题注意事项
  • Django图书商城系统实战开发 - 实现会员管理
  • Kafka如何解决消息丢失的问题
  • 我只记得512天在CSDN的日子
  • pycharm,VSCode 几个好用的插件
  • springboot 使用zookeeper实现分布式ID
  • git cherry-pick
  • 转行软件测试四个月学习,第一次面试经过分享
  • ECS服务器安装docker
  • 高等数学教材啃书汇总重难点(三)微分中值定理与导数的应用
  • 域名列表是什么?
  • 数据库操作不再困难,MyBatis动态Sql标签解析
  • Android 网络编程-网络请求
  • Mac下全选,使用pynput,怎样调用command键?
  • 21款美规奔驰GLS450更换中规高配主机,汉化操作更简单
  • R语言ggplot2 | R语言绘制物种组成面积图(三)
  • 数据统计与可视化的Dash应用程序
  • 解决并发冲突:Java实现MySQL数据锁定策略
  • C++——函数重载及底层原理
  • Ceph入门到精通-Aws Iam(user,role,group,policy,resource)架构图和快速入门
  • 【kubernetes】k8s高可用集群搭建(三主三从)
  • 凸优化基础学习——凸集
  • oracle 19c环境常见问题汇总
  • django实现悲观锁乐观锁
  • vector【2】模拟实现(超详解哦)
  • 金融助贷公司怎么获客——大数据获客
  • Java进阶-Oracle(二十一)(2)
  • SpringCloud实用篇4——MQ RabbitMQ SpringAMQP
  • 【BASH】回顾与知识点梳理(二十二)
  • shell脚本之正则表达式