当前位置: 首页 > news >正文

Hadoop学习一(初识大数据)

目录

一 什么是大数据?

二 大数据特征

三 分布式计算

四 Hadoop是什么?

五 Hadoop发展及版本

六 为什么要使用Hadoop

七 Hadoop vs. RDBMS

八 Hadoop生态圈

九 Hadoop架构 


一 什么是大数据?

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据技术要解决的问题:海量数据存储和海量数据计算

 

二 大数据特征

  • 4V特征
    • Volume(大数据量):90% 的数据是过去两年产生
    • Velocity(速度快):数据增长速度快,
    • 时效性高 Variety(多样化):数据种类和来源多样化 结构化数据(如表形式的数据)、半结构化数据(如 json)、非结构化数据(如日志信息)
    • Value(价值密度低):需挖掘获取数据价值
  • 固有特征
    • 时效性
    • 不可变性

三 分布式计算

分布式计算将较大的数据分成小的部分进行处理。

传统分布式计算

新的分布式计算 - Hadoop

计算方式

将数据复制到计算节点

在不同数据节点并行计算

可处理数据量

小数据量

大数据量

CPU性能限制

受CPU限制较大

受单台设备限制小

提升计算能力

提升单台机器计算能力

扩展低成本服务器集群

 

四 Hadoop是什么?

  • Hadoop是一个开源分布式系统架构,解决海量数据存储和海量数据计算的问题
  • 处理海量数据的架构首选
  • 非常快得完成大数据计算任务
  • 已发展成为一个Hadoop生态圈

五 Hadoop发展及版本

  •  Hadoop起源于搜索引擎Apache Nutch
    • 创始人:Doug Cutting
    • 2004年 - 最初版本实施
    • 2008年 - 成为Apache顶级项目
  • Hadoop发行版本
    • 社区版:Apache Hadoop
    • Cloudera发行版:CDH
    • Hortonworks发行版:HDP

六 为什么要使用Hadoop

  • 高扩展性
    • 在集群间分配任务数据,可方便的扩展数以千计的节点
  • 高可靠性
    • Hadoop底层维护多个数据副本
  • 高容错性
    • Hadoop框架能够自动将失败的任务重新分配
  • 低成本
    • Hadoop架构允许部署在廉价的机器上
  • 灵活,可存储任意类型数据
  • 开源,社区活跃

七 Hadoop vs. RDBMS

Hadoop与关系型数据库对比

RDBMS

Hadoop

格式

写数据时要求

读数据时要求

速度

读数据速度快

写数据速度快

数据监管

标准结构化

任意结构数据

数据处理

有限的处理能力

强大的处理能力

数据类型

结构化数据

结构化、半结构化、非结构化

应用场景

交互式OLAP分析

ACID事务处理

企业业务系统

处理非结构化数据

海量数据存储计算

 

八 Hadoop生态圈

 

九 Hadoop架构 

  • HDFS(Hadoop Distributed File System)
    • 分布式文件系统,解决分布式存储
  • MapReduce
    • 分布式计算框架
  • YARN
    • 分布式资源管理系统 在Hadoop 2.x中引入
  • Common
    • 支持所有其他模块的公共工具程序

     

http://www.lryc.cn/news/134828.html

相关文章:

  • linux定时备份MySQL数据库循环删除前30天的备份文件
  • 不加电透明屏:在场景化应用中,有哪些特点和优点?
  • 全球公链进展| Shibarium已上线;opBNB测试网PreContract硬分叉;Sui 主网 V1.7.1 版本
  • CSS中的display属性有哪些值?它们的作用?
  • ELKstack-日志收集案例
  • 基于GPT-4和LangChain构建云端定制化PDF知识库AI聊天机器人
  • Python可视化工具分享
  • ethers.js:构建ERC-20代币交易的不同方法
  • [实践篇]13.23 QNX环境变量profile
  • HDLBits-Verilog学习记录 | Getting Started
  • flask模型部署教程
  • 一文详解4种聚类算法及可视化(Python)
  • SpringBoot---内置Tomcat 配置和切换
  • Qt 显示git版本信息
  • Mysql的视图和管理
  • uniapp 顶部头部样式
  • 最新ai系统ChatGPT程序源码+详细搭建教程+mj以图生图+Dall-E2绘画+支持GPT4+AI绘画+H5端+Prompt知识库
  • FairyGUI-Unity 自定义UIShader
  • Excel/PowerPoint柱状图条形图负值设置补色
  • el-date-picker 时间区域选择,type=daterange,form表单校验+数据回显问题
  • LeetCode 面试题 01.02. 判定是否互为字符重排
  • 学习maven工具
  • 手机直播源码开发,协议讨论篇(三):RTMP实时消息传输协议
  • 【JavaEE基础学习打卡05】JDBC之基本入门就可以了
  • 2023/8/16 华为云OCR识别驾驶证、行驶证
  • 【Java开发】 Mybatis-Plus 07:创建时间、更新时间自动添加
  • 解决vue2项目在IE11浏览器中无画面的兼容问题
  • 信号
  • 产品经理的真实薪资有多少?今天带你看看
  • 《一个操作系统的实现》windows用vm安装CentOS——从bochs环境搭建到第一个demo跑通