当前位置: 首页 > news >正文

hadoop权威指南第四版

第一部分 HaDOOP基础知识

1.1 面临的问题
存储越来越大,读写跟不上。
并行读多个磁盘。
问题1 磁盘损坏 – 备份数据HDFS
问题2 读取多个磁盘用于分析,数据容易出错 --MR 编程模型

1.2 衍生品

1 在线访问的组件是hbase 。一种使用hdfs底层存储的模型。支持单行的读写,对数据块读写也是不错的。
2 yarn 资源管理系统。允许其他分布式系统对hadoop集群数据运行。
迭代处理(iterative processing) spark.例如机器学习算法,需要很多迭代。mr不支持。sparK 可基于内存计算。
3 流处理 sTORM SPARKSTEMING
4 SEARCH 搜索 solr (Solr它是一种开放源码的、基于Lucene Java 的搜索服务器) 。

1.3 为什么不能用配有大量硬盘的数据库进行大规模分析?为什么需要Hadoop?

因为计算机硬盘的发展趋势是:寻址时间的提升远远不如传输速率的提升,如果访问包含大量地址的数据,读取就会消耗很多时间,
RDBMS B树是传统的数据库 ,适合更新一小部分数据。
在这里插入图片描述

http://www.lryc.cn/news/211290.html

相关文章:

  • LeetCode75——Day20
  • 搭建微信小程序环境及项目结构介绍
  • Python通过pyecharts对爬虫房地产数据进行数据可视化分析(一)
  • 关于测试组件junit切换testng的示例以及切换方式分享
  • nginx 内存管理(二)
  • 【DevChat】智能编程助手 - 使用评测
  • Geek challenge 2023 EzHttp
  • matlabR2021a正版免费使用
  • 天气数据可视化平台-计算机毕业设计vue
  • 揭秘Java switch语句中的case穿透现象
  • Java-API简析_java.io.FilterOutputStream类(基于 Latest JDK)(浅析源码)
  • C语言 每日一题 PTA 10.29 day7
  • 持续集成部署-k8s-服务发现-Ingress 路径匹配与虚拟主机匹配
  • selenium工作原理和反爬分析
  • windows电脑安装系统后固态硬盘和机械硬盘的盘符号顺序显示错乱,解决方法
  • 自定义控件的子控件布局(onLayout()方法)
  • vscode提取扩展出错xhr
  • Docker 笔记(上篇)
  • python自动化测试(六):唯品会商品搜索-练习
  • 深度强化学习用于博弈类游戏-基础测试与说明【1】
  • 通过requests库使用HTTP编写的爬虫程序
  • 550MW发电机变压器组继电保护的整定计算及仿真
  • Linux 命令|服务器相关
  • node 第十三天 express初见
  • Python selenium模块简介
  • DIY相机(一)libcamera库
  • PHP简单实现预定义钩子和自定义钩子
  • 笔记本电脑的摄像头找不到黑屏解决办法
  • 【Git】HEAD detached from xxx 问题及解决方案
  • Cannot connect to the Docker