当前位置: 首页 > news >正文

举例说明 如何通过SparkUI和日志定位任务莫名失败?

有一个Task OOM:

在这里插入图片描述

  • 通过概览信息,发现Stage 10的Task 36失败了4次导致Job失败。概览信息中显示最后一次失败的退出代码(exit code)是143,意味着发生了内存溢出(OOM,即Out of Memory)。
    可以点击Stage链接,查看为什么导致了Executor OOM(Out of Memory)。

  • 通过上述图片发现,大部分Task都成功了,只有一个失败了,这高度怀疑是数据倾斜问题。

    • 如果是Driver逻辑失败导致App失败(例如输入路径不存在、Driver OOM等),应直接查看Driver日志。
    • 如果Driver OOM,可能需要查看Yarn UI。
  • 通过Task日志进一步确认,发现日志中打印的这个Task拉取远程的Shuffle数据远超过上述成功的Task的最大值。明确失败原因为数据倾斜。
    在这里插入图片描述
    在这里插入图片描述

Driver fail

  • Driver逻辑导致失败的可能原因包括:

    • 路径没有权限
    • 读取路径为空
    • SparkContext初始化失败
    • 作业代码自己抛出异常等
  • 首先,Spark UI上没有显示失败的Job。

在这里插入图片描述

转而查看Driver log:
在这里插入图片描述
可以从Driver日志中看到访问目录没有权限:

在这里插入图片描述

http://www.lryc.cn/news/374229.html

相关文章:

  • Vue前端通过Axios的post方式传输数据,后端为什么一直接收的值是null?
  • 外链建设如何进行?
  • 深入理解Java正则表达式及其应用
  • Gstreamer学习3----灌数据给管线之appsrc
  • 【深度学习量化交易1】一个金融小白尝试量化交易的设想、畅享和遐想
  • 【0基础学爬虫】爬虫基础之自动化工具 DrissionPage 的使用
  • c++_0基础_讲解7 练习
  • docker一些常用命令以及镜像构建完后部署到K8s上
  • 在typora中利用正则表达式,批量处理图片
  • 构建LangChain应用程序的示例代码:33、如何在LangChain框架中使用HumanInputChatModel来模拟人工输入的聊天模型教程
  • 虚拟机使用桥接模式网络配置
  • 韩顺平0基础学java——第24天
  • leecode N皇后
  • 2024050802-重学 Java 设计模式《实战模板模式》
  • UNIAPP-ADB无线调试
  • 【stm32-新建工程】
  • 写点什么吧,作为STM32系列的开篇……
  • 代码随想录算法训练营第十天| 232.用栈实现队列|225. 用队列实现栈|20. 有效的括号|1047. 删除字符串中的所有相邻重复项
  • Pulsar 社区周报 | No.2024-06-07 | Apache Pulsar 新分支 3.3 版本发布
  • Go源码--sync库(3):sync.Pool(2)
  • Go如何在本地引用以及发布并引用自定义工具包
  • 使用了代理IP怎么还会被封?代理IP到底有没有效果
  • 在WSL2的Ubuntu中安装和使用Docker/Podman
  • 【WEEK16】Learning Objectives and Summaries【Spring Boot】【English Version】
  • AI大模型会让搜索引擎成为历史吗?
  • SpringSecurity6从入门到实战之SpringSecurity6自定义认证规则
  • Java IO:byte[]、char[]、String三种对象的转换
  • Elasticsearch:简化数据流的数据生命周期管理
  • Verilog综合出来的图
  • KT-H6测距模块标品,测距范围1500m,demo报价1000RMB,批量报价500RMB