当前位置：首页 > news >正文

hadoop 前端yarn 8088端口查看任务执行情况

news 2025/8/14 21:13:05

yarn资源查看
图中资源相关参数含义及简单分析思路：

基础资源抢占参数

Total Resource Preempted: <memory:62112, vCores:6>
含义：应用总共被抢占的资源量， memory:62112 表示累计被收回的内存（单位通常是MB ，结合Hadoop生态常见配置推测）， vCores:6 是被收回的虚拟CPU核心数。
分析：若频繁、大量出现资源抢占，可能集群资源紧张，或该应用资源申请/使用策略不合理，挤占其他任务资源。
Total Number of Non - AM Containers Preempted: 6
含义：非应用管理器（AM，Application Master ，负责应用资源协调等）容器被抢占的总数，这里是6个。容器是YARN等资源调度框架中资源分配的基本单位。
Total Number of AM Containers Preempted: 0
含义：应用管理器容器未被抢占，说明负责应用整体管控的核心进程资源相对稳定。
分析：非AM容器被抢占多，可能是业务计算容器资源超量或集群整体资源不足，优先保障了AM稳定。
Resource Preempted from Current Attempt: <memory:62112, vCores:6>
含义：当前应用尝试（一次提交执行可理解为一次Attempt ）中被抢占的资源量，和总抢占资源一致，说明本次执行就发生了这些资源回收。
Number of Non - AM Containers Preempted from Current Attempt: 6
含义：当前尝试里被抢占的非AM容器数量，与总数量一致，即本次执行这6个业务容器资源被收走。
分析：本次执行资源抢占集中，需看是否应用资源申请过高，或集群在该时段有更高优先级任务。

资源分配聚合参数

Aggregate Resource Allocation: 2612397662 MB - seconds, 27483 core - seconds
含义：
MB - seconds ：内存资源使用的“时间积分”，可理解为内存量（MB）× 使用时长（秒）总和，反映内存资源的累计消耗规模；
core - seconds ：CPU核心使用的“时间积分”，即 CPU核心数 × 使用时长（秒）总和，体现CPU资源的累计消耗规模。
分析：数值大说明应用整体资源消耗多。对比同类型、同逻辑任务，若该数值异常高，可能任务数据量突增、计算逻辑低效（如冗余计算导致CPU/内存长时间占用）。
Aggregate Preempted Resource Allocation: 24922718 MB - seconds, 244 core - seconds
含义：因抢占回收的资源对应的“资源 - 时间”积分，即被收回资源若正常执行下去会产生的资源消耗。
分析：结合前面抢占的容器数、资源量，可算抢占资源占总分配资源的比例（如这里内存抢占占比约 24922718/2612397662≈0.95% ，CPU同理），占比高说明资源浪费/不合理使用严重，占比低可能是集群临时资源调剂。

整体分析思路

资源抢占影响：若资源抢占后应用仍 SUCCEEDED （成功），说明虽被回收资源，但剩余资源或重试机制（若有）保障了执行；若频繁因抢占失败（ FAILED ），得调整资源申请、优化任务逻辑，或和集群管理员沟通资源配额。
集群层面：多任务出现类似高抢占，需检查集群资源规划（如队列资源分配、节点容量），是否有资源倾斜（某队列/用户占用过多）；若仅个别任务，聚焦任务自身资源配置、数据量、计算逻辑优化。
结合业务：若这是周期性ETL（如每天跑的零售客户标签计算 exp_ctp_retail_cust_dms_labe_df ），对比历史执行的资源参数，看是否数据量增长导致资源需求变化，或调度时段和其他大任务冲突挤资源。

简单说，这些参数反映应用在集群中资源“用了多少、被收走多少、怎么被收”，用于排查资源冲突、优化任务资源配置和保障集群稳定运行。

资源抢占（Resource Preemption）主要会从任务执行、集群稳定性、资源利用率等维度产生影响，具体如下：

对任务执行的直接影响

执行时间延长：
若容器被抢占，任务可能需要重新申请资源、启动容器，增加额外的调度和初始化开销（如YARN重新分配容器、TEZ/MapReduce任务重启），导致整体耗时变长。
例：前一张图中任务因资源抢占耗时25分钟，而无抢占的任务耗时仅16分钟左右。
任务失败风险：
若抢占后剩余资源不足（如内存/CPU被过度回收），任务可能因“资源不足”（如OOM、容器被强制Kill）失败；即使重试，频繁抢占也会耗尽重试次数（若配置有限）。

对集群稳定性的影响

集群抖动（Thrashing）：
大量任务同时被抢占、重启会导致集群资源“潮汐式”波动，引发YARN调度队列过载、节点负载突增，甚至影响其他无关任务的正常执行。
低优先级任务“饿死”：
若高优先级任务持续抢占资源，低优先级任务可能长期无法获得足够容器，导致业务延迟（如非核心ETL任务被核心报表任务抢占）。

对资源利用率的双向影响

正面：倒逼资源合理分配
抢占机制迫使低优先级/超额申请的任务释放资源，让高优先级/资源紧缺的任务获得保障，提升集群整体资源利用率（避免“大任务占坑不干活”）。
负面：过度抢占导致资源浪费
若抢占策略激进（如YARN的 yarn.scheduler.fair.preemption.timeout 设置过短），任务可能频繁被中断，资源在“抢占 - 重启”循环中内耗，反而降低实际有效利用率。

对业务逻辑的潜在影响

有状态任务的数据一致性风险
若任务是有状态计算（如流处理、迭代计算），容器被抢占可能导致中间状态丢失，需依赖Checkpoint机制恢复，增加数据一致性保障的复杂度。
总结
资源抢占是一把“双刃剑”：合理配置（如基于优先级、资源使用阈值触发抢占）可优化集群资源公平性与利用率；配置不当或集群过载则会导致任务延迟、失败，甚至引发集群级不稳定。实际中需结合业务优先级、任务类型（如批处理/流处理）和集群规模，精细调整抢占策略（如YARN的公平调度/容量调度参数）。

要优化该Tez任务的参数配置，需结合资源抢占、聚合资源消耗与Tez任务的内存/CPU参数逻辑，分以下步骤调整：

一、核心参数调整：减少资源抢占，匹配实际需求

从图中看，任务被抢占的总内存为 62112 MB （约60GB）、涉及6个非AM容器，反推原单个容器内存请求约 10GB （ 62112 ÷ 6 ≈ 10352 MB ）。但聚合资源分配的内存时间积分（ 2612397662 MB-seconds ）远大于被抢占的资源积分（ 24922718 MB-seconds ），说明容器内存申请过高，实际使用不足，需降低容器内存请求。

调整容器与AM内存

hive.tez.container.size ：设置单个容器的总内存（需与YARN的 yarn.scheduler.minimum-allocation-mb 匹配，建议设为 4096 MB 或 6144 MB ，即4G/6G，降低被抢占概率）。
tez.am.resource.memory.mb ：Application Master（AM）的内存，需与 yarn.scheduler.minimum-allocation-mb 一致（如设为 4096 MB ），保证AM不被抢占。
hive.tez.container.max.java.heap.size ：容器内Java堆内存，建议为 container.size 的80%（如 container.size=4096 MB 时，设为 3276 MB ）。

优化IO与内存缓冲（减少内存浪费）

Tez的IO缓冲内存若设置过大，会导致容器内存“虚高”被YARN误判抢占。需按容器内存比例配置：

tez.runtime.io.sort.mb ：排序内存，设为 container.size 的40%（如 container.size=4096 MB 时，设为 1638 MB ，不超过2GB）。
tez.runtime.unordered.output.buffer.size-mb ：非排序输出缓冲，设为 container.size 的10%（如 409 MB ）。
hive.auto.convert.join.noconditionaltask.size ：Map Join内存，设为 container.size 的1/3（如 1365 MB ），避免大Join时内存溢出。

二、辅助优化：提升资源利用率

开启容器重用（减少资源申请次数）

设置 tez.am.container.reuse.enabled=true ，允许AM容器复用，减少YARN调度 overhead，尤其适合短任务场景。

控制并行度（避免资源过载）

若任务数据量未达TB级，可降低并行度减少容器数：

tez.grouping.split-count ：输入分片数（即并行任务数），根据实际数据量调整（如从100+降到50左右），减少总资源申请量。

匹配YARN集群配置

需确保任务参数与YARN全局配置一致：

若YARN的 yarn.scheduler.minimum-allocation-mb=4096 ，则 tez.am.resource.memory.mb 和 hive.tez.container.size 必须≥4096。
若 yarn.nodemanager.vmem-pmem-ratio=2.1 （默认），则容器虚拟内存上限为物理内存×2.1 ，需避免Java堆外内存（如NIO缓冲）触发虚拟内存超限。

三、验证与监控

测试调整后效果：重新运行任务，观察 Resource Preempted 是否减少、 Elapsed （耗时）是否稳定。
长期监控：通过YARN UI或日志跟踪容器内存实际使用量（如 /proc//stat 解析），逐步微调 container.size 和堆内存参数，直到“实际使用≈申请内存”且无抢占。

示例参数配置（供参考）

set hive.tez.container.size=4096; – 每个容器4G内存
set tez.am.resource.memory.mb=4096; – AM内存与容器一致
set hive.tez.container.max.java.heap.size=3276; – 堆内存为container的80%
set tez.runtime.io.sort.mb=1638; – 排序内存40% of container
set tez.runtime.unordered.output.buffer.size-mb=409; – 非排序缓冲10% of container
set hive.auto.convert.join.noconditionaltask.size=1365; – Map Join内存1/3 of container
set tez.am.container.reuse.enabled=true; – 开启容器重用
set tez.grouping.split-count=50; – 调整并行度

通过“降低容器内存请求+按比例分配子内存+匹配YARN配置”，可减少资源抢占，同时保证任务稳定运行。

查看全文

http://www.lryc.cn/news/620337.html