当前位置: 首页 > news >正文

Hadoop优化

1.小文件

影响:

         元数据的瓶颈在于文件的数量,无论单个文件的大小

        资源大材小用

优化

        计算:使用combininputformat提前合并小文件

                   JVM重用

        存储:归档

2.map端

                环形缓冲区-区域大小、溢写比列            

                提前combiner,做reduce操作

3.reduce端

               合理控制map、reduce任务数

               允许map、reduce并行

                不用reduce

4.io

       提前combiner,减少shulffle网络IO

        数据压缩、双刃剑

5.总体

         增加资源,map端、reduce端的cpu、内存

http://www.lryc.cn/news/90257.html

相关文章:

  • FPGA设计的指导性原则 (中)
  • 开源创新 协同融合|2023 开放原子全球开源峰会开源协作平台分论坛即将启幕
  • 第四章 相似矩阵与矩阵对角化
  • 课程11:仓储层Repository实现、AutoMapper自动映射
  • 关于作用域的那些事(进阶)
  • 小技巧notebook
  • 【2451. 差值数组不同的字符串】
  • Java面试-每日十题
  • java.awt.datatransfer.Clipboard剪切板获取String字符串文本
  • HCIA——VLAN
  • 测试分析流程及输出项
  • OO设计原则
  • 《深入理解计算机系统(CSAPP)》第5章 优化程序性能 - 学习笔记
  • 【Spring Boot】033-使用 `@ResponseBody` 注解代替`ServletResponse`?
  • 【openGauss实战13】闪回技术
  • Top大学教授:青年学者,请避免这些写作问题→
  • 使用midjourney搞出一套三国人物画像!
  • ELK日志分析系统
  • 整型在内存中的存储
  • 子集-回溯算法
  • 公司study three
  • 【运维】speedtest测试
  • CycloneDDS开源代码在Linux系统上编译生成可执行文件的详细步骤
  • PLL锁相环的一部分--鉴频鉴相器
  • CSS实现磨砂玻璃(毛玻璃)效果样式
  • Solidity拓展:数学运算过程中数据长度溢出的问题
  • 【C语言】经典题目(一)
  • Linux 设备树文件手动编译的 shell 脚本
  • C++核心编程——初识STL——STL的基本概念和六大组件
  • 5.2图的BFS与DFS遍历