当前位置: 首页 > news >正文

spark的eventLog日志分析

  1. 查找满足指定条件的app_id
  2. 查询条件: 表名、时间、节点名
  3. 时间限定: 最好适当放大, 不知道什么原因有点不准
  4. eventLog的存放路径: spark.history.fs.logDirectory

1. spark-sql 

  • 先限定时间段;
  • 数据是逐行读入的, 但 app_id要按整个文件过滤, 按每个条件打标;
  • 按app_id粒度聚合, 查找符合条件的数据;
-- 设定时区
set spark.sql.session.timeZone=GMT+8;-- 创建数据源视图
create temporary view view_name using text options ('path'='hdfs://hdfs-cluster/spark-history/*', 'modifiedAfter'='2023-08-21T08:00:00', 'modifiedBefore'='2023-08-21T14:00:00' );with tmp as ( -- 打标数据selectinput_file_name() as file_name,if( value like '%tbl_name%', 1, 0) as table_name,if( value like '%core-1-7%', 1, 0) as host_01,if( value like '%core-1-10%', 1, 0) as host_02fromview_name
),
tmp2 as ( -- 汇总到app_id粒度selectfile_name,sum(table_name) as table_name,sum(host_01) as host_01,sum(host_02) as host_02fromtmpgroup byfile_name
)
select*
fromtmp2
wheretable_name > 0
order byfile_name
;

2. 整文件读取

  • 先初步过滤app_id;
  • 整个文件读取成一行;
  • 按条件进行过滤;
import spark.implicits._// 寻找可能的APP_ID
val sql_create_view ="""|create temporary view view_name using text options ('path'='hdfs://hdfs-cluster/spark-history/*', 'modifiedAfter'='2023-08-21T00:00:00', 'modifiedBefore'='2023-08-21T23:00:00' )|""".stripMargin
val sql_filter_app_id ="""|select|   split( input_file_name(), 'history/')[1]  as file_name|from|    view_name|where|    value like '%trandw.dwd_log_app_open_di%'|group by|    split( input_file_name(), 'history/')[1]|""".stripMargin
spark.sql(sql_create_view)
val df_app_ids = spark.sql(sql_filter_app_id)
val app_ids = df_app_ids.collect().map(_.getString(0)).mkString(",")// 整个文件读取成一行
val rdd = spark.sparkContext.wholeTextFiles(s"hdfs://hdfs-cluster/spark-history/{${app_ids}}",20).repartition(12)
val df = rdd.toDF("file_name", "value")
df.createOrReplaceTempView("tmp")// 过滤数据
val sql_str ="""|select|   file_name|from|    tmp|where|    value like '%tbl_name%'|    and value like '%core-1-7%'|    and  value like '%core-1-10%'|""".stripMarginspark.sql(sql_str).show(1)

http://www.lryc.cn/news/134985.html

相关文章:

  • 探究Java spring中jdk代理和cglib代理!
  • 反转链表(C++)
  • 适配器模式:让不兼容的接口协同工作
  • 【1day】复现Milesight-VPNserver.js 任意文件读取漏洞
  • 前端代码规范
  • Java接入文心一言
  • 信息管理系统三级等保的一些要求
  • 第六届“蓝帽杯”电子取证模块(初赛)解析+全资源一次性分享
  • 《Go 语言第一课》课程学习笔记(九)
  • docker 安装nginx 和 elasticsearch ik 自定义分词
  • 谈谈收音机的发展
  • QTreeWidget——信号处理
  • 【Java从入门到精通|1】从特点到第一个Hello World程序
  • JAVA 读取jar包中excel模板
  • 解决方案:fatal error: openssl/bio.h: 没有那个文件或目录
  • 【MySQL系列】ALTER语句详解,以及UPDATE,DELECT,TRUNCATE语句的使用+区别
  • c++关键字 =delete和=default
  • idea 左下角的Git(Version Control)中显示Local Changes窗口
  • .net老项目中Jquery访问webservice
  • SpringBoot项目集成ElasticSearch服务
  • 2023年网络安全比赛--综合渗透测试(超详细)
  • 一次网络不通“争吵“引发的思考
  • 【使用Node.js搭建自己的HTTP服务器】
  • 回归预测 | MATLAB实现PSO-RF粒子群优化算法优化随机森林算法多输入单输出回归预测(多指标,多图)
  • ● 392.判断子序列 ● 115.不同的子序列
  • 4.SpringCloud 基本架构
  • springboot后端返回图片,vue前端接收并显示的解决方案
  • 算法|Day46 动态规划14
  • 宠物小程序开发攻略:五分钟教你打造宠物店小程序
  • open suse 15.5(任意版本) 使用阿里云的repo