当前位置: 首页 > news >正文

Hadoop简介

1. Hadoop简介

官网:http://hadoop.apache.org

1.1 Hadoop架构

  • Hadoop由三个模块组成:分布式存储HDFS、分布式计算MapReduce、资源调度引擎YARN

请添加图片描述

1.2 Hadoop历史

请添加图片描述

  • Hadoop作者Doug Cutting

  • Apache Lucene是一个文本搜索系统库

  • Apache Nutch作为前者的一部分,主要包括web爬虫、全文检索;2003年“谷歌分布式文件系统GFS”论文,2004年开源版本NDFS

  • 2004年“谷歌MapReduce”论文,2005年Nutch开源版MapReduce

请添加图片描述

2、更多内容:

Hadoop相关

  • HDFS分布式文件系统
  • MR(MapReduce)离线数据处理
  • YARN集群资源管理

Hive相关

  • Hive-01之数仓、架构、数据类型、DDL、内外部表
  • Hive-02之分桶表、数据导入导出、静动态分区、查询、排序、hiveserver2
  • Hive-03之传参、常用函数、explode、lateral view、行专列、列转行、UDF
  • Hive-04之存储格式、SerDe、企业级调优
  • Hive-05之查询 分组、排序、case when、 什么情况下Hive可以避免进行MapReduce
  • Hive-06之函数 聚合Cube、Rollup、窗口函数
  • Hive-07之企业级调优
  • Hive-08之数据仓库之建模、分析
  • Hive-09之主流文件存储格式对比
  • Hive-10之数据倾斜处理办法
http://www.lryc.cn/news/545593.html

相关文章:

  • 密码学(哈希函数)
  • 谈谈单例模式中通过Htools包的SpringUtil.getBean获取Bean的好处
  • 本地部署大语言模型-DeepSeek
  • adb的安装
  • Python 如何实现 Markdown 记账记录转 Excel 存储
  • 随机播放音乐 伪随机
  • latex 环境配置
  • fortify安全扫描Access Control: Database问题解决
  • Java 设计模式:软件开发的精髓与艺
  • 初学者如何用 Python 写第一个爬虫?
  • Cocos Creator3.8.6拖拽物体的几种方式
  • 分布式Session
  • Kotlin 运算符重载
  • OpenHarmony4.1-轻量与小型系统ubuntu开发环境
  • AVR 单片机硬件供电处理
  • LeetCode 27 移除元素
  • 对“预训练”的理解
  • 论文阅读:CAN GENERATIVE LARGE LANGUAGE MODELS PERFORM ASR ERROR CORRECTION?
  • Stable Diffusion(SD)系列模型及关联算法深度解析
  • FPGA开发,使用Deepseek V3还是R1(3):系统级与RTL级
  • logback日志输出配置范例
  • 【开源免费】基于SpringBoot+Vue.JS酒店管理系统(JAVA毕业设计)
  • Unity中动态切换光照贴图LightProbe的方法
  • linux(2)用户管理
  • 在鸿蒙HarmonyOS手机上安装hap应用
  • MacBook Pro使用FFmpeg捕获摄像头与麦克风推流音视频
  • 工程化与框架系列(8)--持续集成实践
  • Python核心技术,Django学习基础入门教程(附环境安装包)
  • 【Qt-信号与槽】connect函数的用法
  • 计算机毕业设计SpringBoot+Vue.js景区民宿预约系统(源码+文档+PPT+讲解)