当前位置: 首页 > news >正文

hadoop 前端yarn 8088端口查看任务执行情况

yarn资源查看
图中资源相关参数含义及简单分析思路:

  1. 基础资源抢占参数
  • Total Resource Preempted: <memory:62112, vCores:6>
    含义:应用总共被抢占的资源量, memory:62112 表示累计被收回的内存(单位通常是MB ,结合Hadoop生态常见配置推测 ), vCores:6 是被收回的虚拟CPU核心数。
    分析:若频繁、大量出现资源抢占,可能集群资源紧张,或该应用资源申请/使用策略不合理,挤占其他任务资源。
  • Total Number of Non - AM Containers Preempted: 6
    含义:非应用管理器(AM,Application Master ,负责应用资源协调等)容器被抢占的总数,这里是6个。容器是YARN等资源调度框架中资源分配的基本单位。
    Total Number of AM Containers Preempted: 0
    含义:应用管理器容器未被抢占,说明负责应用整体管控的核心进程资源相对稳定。
    分析:非AM容器被抢占多,可能是业务计算容器资源超量或集群整体资源不足,优先保障了AM稳定。
  • Resource Preempted from Current Attempt: <memory:62112, vCores:6>
    含义:当前应用尝试(一次提交执行可理解为一次Attempt )中被抢占的资源量,和总抢占资源一致,说明本次执行就发生了这些资源回收。
    Number of Non - AM Containers Preempted from Current Attempt: 6
    含义:当前尝试里被抢占的非AM容器数量,与总数量一致,即本次执行这6个业务容器资源被收走。
    分析:本次执行资源抢占集中,需看是否应用资源申请过高,或集群在该时段有更高优先级任务。
  1. 资源分配聚合参数
  • Aggregate Resource Allocation: 2612397662 MB - seconds, 27483 core - seconds
    含义:
  • MB - seconds :内存资源使用的“时间积分”,可理解为 内存量(MB)× 使用时长(秒) 总和,反映内存资源的累计消耗规模 ;
  • core - seconds :CPU核心使用的“时间积分”,即 CPU核心数 × 使用时长(秒) 总和,体现CPU资源的累计消耗规模。
    分析:数值大说明应用整体资源消耗多。对比同类型、同逻辑任务,若该数值异常高,可能任务数据量突增、计算逻辑低效(如冗余计算导致CPU/内存长时间占用)。
  • Aggregate Preempted Resource Allocation: 24922718 MB - seconds, 244 core - seconds
    含义:因抢占回收的资源对应的“资源 - 时间”积分,即被收回资源若正常执行下去会产生的资源消耗。
    分析:结合前面抢占的容器数、资源量,可算抢占资源占总分配资源的比例(如这里内存抢占占比约 24922718/2612397662≈0.95% ,CPU同理 ),占比高说明资源浪费/不合理使用严重,占比低可能是集群临时资源调剂。

整体分析思路

  1. 资源抢占影响:若资源抢占后应用仍 SUCCEEDED (成功),说明虽被回收资源,但剩余资源或重试机制(若有)保障了执行;若频繁因抢占失败( FAILED ),得调整资源申请、优化任务逻辑,或和集群管理员沟通资源配额。
  2. 集群层面:多任务出现类似高抢占,需检查集群资源规划(如队列资源分配、节点容量),是否有资源倾斜(某队列/用户占用过多 );若仅个别任务,聚焦任务自身资源配置、数据量、计算逻辑优化。
  3. 结合业务:若这是周期性ETL(如每天跑的零售客户标签计算 exp_ctp_retail_cust_dms_labe_df ),对比历史执行的资源参数,看是否数据量增长导致资源需求变化,或调度时段和其他大任务冲突挤资源 。

简单说,这些参数反映应用在集群中资源“用了多少、被收走多少、怎么被收”,用于排查资源冲突、优化任务资源配置和保障集群稳定运行 。

资源抢占(Resource Preemption)主要会从任务执行、集群稳定性、资源利用率等维度产生影响,具体如下:

  1. 对任务执行的直接影响
  • 执行时间延长:
    若容器被抢占,任务可能需要重新申请资源、启动容器,增加额外的调度和初始化开销(如YARN重新分配容器、TEZ/MapReduce任务重启),导致整体耗时变长。
    例:前一张图中任务因资源抢占耗时25分钟,而无抢占的任务耗时仅16分钟左右。
  • 任务失败风险:
    若抢占后剩余资源不足(如内存/CPU被过度回收),任务可能因“资源不足”(如OOM、容器被强制Kill)失败;即使重试,频繁抢占也会耗尽重试次数(若配置有限)。
  1. 对集群稳定性的影响
  • 集群抖动(Thrashing):
    大量任务同时被抢占、重启会导致集群资源“潮汐式”波动,引发YARN调度队列过载、节点负载突增,甚至影响其他无关任务的正常执行。
  • 低优先级任务“饿死”:
    若高优先级任务持续抢占资源,低优先级任务可能长期无法获得足够容器,导致业务延迟(如非核心ETL任务被核心报表任务抢占)。
  1. 对资源利用率的双向影响
  • 正面:倒逼资源合理分配
    抢占机制迫使低优先级/超额申请的任务释放资源,让高优先级/资源紧缺的任务获得保障,提升集群整体资源利用率(避免“大任务占坑不干活”)。
  • 负面:过度抢占导致资源浪费
    若抢占策略激进(如YARN的 yarn.scheduler.fair.preemption.timeout 设置过短),任务可能频繁被中断,资源在“抢占 - 重启”循环中内耗,反而降低实际有效利用率。
  1. 对业务逻辑的潜在影响
  • 有状态任务的数据一致性风险
    若任务是有状态计算(如流处理、迭代计算),容器被抢占可能导致中间状态丢失,需依赖Checkpoint机制恢复,增加数据一致性保障的复杂度。
    总结
    资源抢占是一把“双刃剑”:合理配置(如基于优先级、资源使用阈值触发抢占)可优化集群资源公平性与利用率;配置不当或集群过载则会导致任务延迟、失败,甚至引发集群级不稳定。实际中需结合业务优先级、任务类型(如批处理/流处理)和集群规模,精细调整抢占策略(如YARN的公平调度/容量调度参数)。

要优化该Tez任务的参数配置,需结合资源抢占、聚合资源消耗与Tez任务的内存/CPU参数逻辑,分以下步骤调整:

一、核心参数调整:减少资源抢占,匹配实际需求

从图中看,任务被抢占的总内存为 62112 MB (约60GB)、涉及6个非AM容器,反推原单个容器内存请求约 10GB ( 62112 ÷ 6 ≈ 10352 MB )。但聚合资源分配的内存时间积分( 2612397662 MB-seconds )远大于被抢占的资源积分( 24922718 MB-seconds ),说明容器内存申请过高,实际使用不足,需降低容器内存请求。

  1. 调整容器与AM内存
  • hive.tez.container.size :设置单个容器的总内存(需与YARN的 yarn.scheduler.minimum-allocation-mb 匹配,建议设为 4096 MB 或 6144 MB ,即4G/6G,降低被抢占概率)。
  • tez.am.resource.memory.mb :Application Master(AM)的内存,需与 yarn.scheduler.minimum-allocation-mb 一致(如设为 4096 MB ),保证AM不被抢占。
  • hive.tez.container.max.java.heap.size :容器内Java堆内存,建议为 container.size 的80%(如 container.size=4096 MB 时,设为 3276 MB )。
  1. 优化IO与内存缓冲(减少内存浪费)

Tez的IO缓冲内存若设置过大,会导致容器内存“虚高”被YARN误判抢占。需按容器内存比例配置:

  • tez.runtime.io.sort.mb :排序内存,设为 container.size 的40%(如 container.size=4096 MB 时,设为 1638 MB ,不超过2GB)。
  • tez.runtime.unordered.output.buffer.size-mb :非排序输出缓冲,设为 container.size 的10%(如 409 MB )。
  • hive.auto.convert.join.noconditionaltask.size :Map Join内存,设为 container.size 的1/3(如 1365 MB ),避免大Join时内存溢出。

二、辅助优化:提升资源利用率

  1. 开启容器重用(减少资源申请次数)

设置 tez.am.container.reuse.enabled=true ,允许AM容器复用,减少YARN调度 overhead,尤其适合短任务场景。

  1. 控制并行度(避免资源过载)

若任务数据量未达TB级,可降低并行度减少容器数:

  • tez.grouping.split-count :输入分片数(即并行任务数),根据实际数据量调整(如从100+降到50左右),减少总资源申请量。
  1. 匹配YARN集群配置

需确保任务参数与YARN全局配置一致:

  • 若YARN的 yarn.scheduler.minimum-allocation-mb=4096 ,则 tez.am.resource.memory.mb 和 hive.tez.container.size 必须≥4096。
  • 若 yarn.nodemanager.vmem-pmem-ratio=2.1 (默认),则容器虚拟内存上限为 物理内存×2.1 ,需避免Java堆外内存(如NIO缓冲)触发虚拟内存超限。

三、验证与监控

  1. 测试调整后效果:重新运行任务,观察 Resource Preempted 是否减少、 Elapsed (耗时)是否稳定。
  2. 长期监控:通过YARN UI或日志跟踪容器内存实际使用量(如 /proc//stat 解析),逐步微调 container.size 和堆内存参数,直到“实际使用≈申请内存”且无抢占。

示例参数配置(供参考)

set hive.tez.container.size=4096; – 每个容器4G内存
set tez.am.resource.memory.mb=4096; – AM内存与容器一致
set hive.tez.container.max.java.heap.size=3276; – 堆内存为container的80%
set tez.runtime.io.sort.mb=1638; – 排序内存40% of container
set tez.runtime.unordered.output.buffer.size-mb=409; – 非排序缓冲10% of container
set hive.auto.convert.join.noconditionaltask.size=1365; – Map Join内存1/3 of container
set tez.am.container.reuse.enabled=true; – 开启容器重用
set tez.grouping.split-count=50; – 调整并行度

通过“降低容器内存请求+按比例分配子内存+匹配YARN配置”,可减少资源抢占,同时保证任务稳定运行。

http://www.lryc.cn/news/620337.html

相关文章:

  • 【深入浅出STM32(1)】 GPIO 深度解析:引脚特性、工作模式、速度选型及上下拉电阻详解
  • 数据结构:队列(Queue)与循环队列(Circular Queue)
  • linux_网络层-ip协议
  • 力扣 hot100 Day72
  • 深入理解 Cookie 与 Session —— Web 状态保持详解与实战
  • SpringBoot 整合 Langchain4j 系统提示词与用户提示词实战详解
  • JavaWeb(05)
  • TCP客户端Linux网络编程设计详解
  • 人工智能——CNN基础:卷积和池化
  • HiSmartPerf使用WIFI方式连接Android机显示当前设备0.0.0.0无法ping通!设备和电脑连接同一网络,将设备保持亮屏重新尝试
  • SAP Valuation Category在制造业成本核算中的使用场景与配置方案
  • 基于C语言基础对C++的进一步学习_C和C++编程范式、C与C++对比的一些补充知识、C++中的命名空间、文件分层
  • window显示驱动开发—多平面覆盖 VidPN 呈现
  • 看懂 Linux 硬件信息查看与故障排查
  • 力扣42:接雨水
  • 人工智能入门①:AI基础知识(上)
  • Python图像处理基础(十三)
  • 《工程封装》(Python)
  • 网络安全合规6--服务器安全检测和防御技术
  • 3.Ansible编写和运行playbook
  • 3DM游戏运行库合集离线安装包下载, msvcp140.dll丢失等问题修复
  • ESP32_STM32_DHT20
  • 三极管的基极为什么需要下拉电阻
  • Vue3从入门到精通:4.1 Vue Router 4深度解析与实战应用
  • vue实现模拟 ai 对话功能
  • JS的学习5
  • vue修改element的css属性
  • 决策树回归:用“分而治之”的智慧,搞定非线性回归难题(附3D可视化)
  • 北京JAVA基础面试30天打卡09
  • uniapp授权登录