当前位置: 首页 > news >正文

Apache Hadoop

一、Apache Hadoop入门

1.1、Hadoop介绍

狭义上:hadoop指的是Apache一款java开源软件,是一个大数据分析处理平台。

  • Hadoop HDFS:分布式文件系统。 解决了海量数据存储问题。

     Hadoop Distributed File System (HDFS™)
    
  • Hadoop MapReduce:分布式计算框架。解决海量数据计算问题。
    parallel processing of large data sets.
  • Hadoop YARN:集群资源管理和任务调度。
    A framework for job scheduling and cluster resource management.#资源指的是和程序运行相关的硬件资源
    cpu ram内存#任务调度
    集群资源繁忙的时候 如何分配资源给各个程序  调度
    调度的关键是策略:先来后到  权重

  • 广义上:Hadoop指的是hadoop生态圈。
    提供了大数据的几乎所有软件。
    采集、存储、导入、分析、挖掘、可视化、管理...

1.2、Hadoop起源发展

        Hadoop之父--Doug Cutting 卡大爷

        起源项目Apache Nutch。 致力于构建一个全网搜索引擎。

1、爬取互联网网页 --->存储在哪里? 海量数据存储问题2、基于网页创建倒排索引。--->如何计算?  海量数据计算问题

        Google也在做搜索,也遇到这些问题,内部解决了。

                google不想开源软件,但是又憋的难受,怕被人不知道,写论文发表。

                前后写了3篇论文(谷歌是使用c实现的)。

                谷歌分布式文件系统(GFS)------>HDFS
                谷歌版MapReduce 系统------>Hadoop MapReduce
                bigtable---->HBase

                基于论文的影响 Nutch团队实现了相应的java版本开源组件。

        Nutch团队把HDFS和MapReduce抽取独立成为单独软件在2008年贡献给了Apache。开源。

        Doug Cutting 看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫hadoop,他灵光一闪,就把这技术命名为 Hadoop,而且还用了黄色小象作为标示 Logo。

1.3、Hadoop特性优点

        分布式、扩容能力

不再注重单机能力 看中的是集群的整体能力。
动态扩容、缩容。

        成本低

在集群下 单机成本很低 可以是普通服务器组成集群
意味着大数据处理不一定需要超级计算机。

        高效率 并发能力

        可靠性

        通用性

#技术是相同的 业务不相同的
#hadoop精准区分技术和业务。

做什么?(what need to do)---->业务问题(20%)
怎么做?(how to do)----->技术问题(80%)

Hadoop把技术实现了 用户负责业务问题。

原来大数据这么简单 可以这么玩。

结语:笔者能力有限欢迎大家多多指教。

http://www.lryc.cn/news/65649.html

相关文章:

  • PHP+vue大学生心理健康评价和分析系统8w3ff
  • 【图像分割】【深度学习】SAM官方Pytorch代码-Mask decoder模块MaskDeco网络解析
  • A Restful API
  • 从零开始学习JSP,让你全面掌握Web开发技能
  • java基于知识库的中医药问询系统
  • 【新星计划-2023】什么是ARP?详解它的“解析过程”与“ARP表”。
  • 自动驾驶行业观察之2023上海车展-----车企发展趋势(2)
  • 通知所有员工所需的时间
  • Docker:bash: vim: command not found
  • 排序算法之选择排序
  • 5_服务编排_docker-compose
  • Java基本数据类型以及包装类型的常量池技术
  • P1054 [NOIP2005 提高组] 等价表达式
  • 什么牌子蓝牙耳机好用不贵?国产性价比高的蓝牙耳机推荐
  • 明明花钱上了ERP,为什么还要我装个MES系统
  • JAVA中的集合框架有哪些?
  • 用Jmeter进行接口自动化测试的工作流程你知道吗?
  • Java 中的设计模式有哪些?(十九)
  • 奇数单增序列
  • Seata介绍
  • VK Cup 2017 - Round 1 A - Bear and Friendship Condition(并查集维护大小 + dfs 遍历图统计边数)
  • 为UOS启用VNC和Windows远程桌面
  • Java时间类(七)-- LocalDateTime()类
  • 卢北辰:数据点亮梦想,能力驱动人生 | 提升之路系列(九)
  • 数据库基础及用户管理授权
  • 比特米盒子刷安卓ATV6.0
  • 【用python的QT做信号处理的界面】
  • 【Linux】进程间通信 —— 管道
  • 知识管理在企业中的重要性
  • Socks5、网络安全、代理IP技术详解