当前位置: 首页 > news >正文

spark相关知识

1.Spark的特点
Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成了一套完整的生态系统,既能够提供内存计算框架,也可以支持SQL即席查询、实时流式计算、机器学习和图计算等。
运行速度快,易使用,强大的技术栈,集成性好
2.Spark与Hive
Hive的缺点
表达能力有限,磁盘IO开销大,延迟高,
3.Spark-streaming与Flink
微批处理,准实时系统
4.Spark的运行架构
Driver向集群管理器申请资源,启动Executor,并向Executor发送程序代码和文件,在Executor上执行任务,执行结果返回任务控制节点或写到HDFS和其他数据库
5.hive on spark和spark on hive
前者只有计算引擎是Spark,前期解析,转换,优化等步骤都是Hive完成。
后者只有元数据用了Hive,对SQL的解析,转换,优化等都是Spark完成。
6.宽窄依赖之间的区别
窄依赖表现为一个父RDD的分区对应于一个子RDD的分区,或多个父RDD的分区对应于一个子RDD的分区
宽依赖则表现为存在一个父RDD的一个分区对应一个子RDD的多个分区
7.RDD运行过程
(1)创建RDD对象;
(2)SparkContext负责计算RDD之间的依赖关系,构建DAG;
(3)DAGScheduler负责把DAG图分解成多个阶段,每个阶段中包含了多个任务,每个任务会被任务调度器分发给各个工作节点(Worker Node)上的Executor去执行。
8.Spark三种部署方式
包括standalone、Spark on Mesos和Spark on YARN
9.广播变量和累加器
Spark中的两个重要抽象是RDD和共享变量
广播变量允许开发人员在每个机器上缓存一个只读的变量,而不是为每个机器的每个任务都生成一个副本
val broadcastVar = sc.broadcast(Array(1, 2, 3))
broadcastVar.value
10.转换算子和行动算子
转换:map,filter,groupByKey,reduceByKey
行动:collect,foreach,count,reduce
键值对:groupByKey,reduceByKey,sortByKey,keys,values,mapValues,join
11.自定义udf和udaf
udf 直接spark.udf.register(“”,函数)
udaf 需继承UserDefinedAggregateFunction 实现父类的8个方法
12.RDD与DataFrame的区别
RDD是分布式的 Java对象的集合
DataFrame是一种以RDD为基础的分布式数据集,也就是分布式的Row对象的集合(每个Row对象代表一行记录)

http://www.lryc.cn/news/358473.html

相关文章:

  • K8S认证|CKA题库+答案| 12. 查看Pod日志
  • 【Java SE】 String、StringBuff和StringBuilder
  • 产品经理-需求分析(三)
  • Linux 编译器gcc/g++使用
  • adam优化器计算过程(tensorflow)
  • 【数据结构与算法 | 链表篇】力扣876
  • kubeadm引导欧拉系统高可用的K8S1.28.X
  • 【信息学奥赛】字典的键和值对换
  • 使用Django框架搭建Web应用
  • 我用Mybatis的方式封装了OLAP查询!
  • golang rune类型解析,与byte,string对比,以及应用
  • 重学java 51.Collections集合工具类、泛型
  • 多语言印度红绿灯系统源码带三级分销代理功能
  • HTML拆分与共享方式——多HTML组合技术
  • K8s集群之 存储卷 PV PVC
  • “腾讯云 AI 代码助手”体验
  • Django入门全攻略:从零搭建你的第一个Web项目
  • AI大模型日报#0529:杨红霞创业入局“端侧模型”、Ilya左膀右臂被Claude团队挖走
  • 达梦数据库
  • 什么是Axios
  • React 其他 Hooks
  • echarts配置记录,一些已经废弃的写法
  • 电量计量芯片HLW8110的前端电路设计与误差分析校正.pdf 下载
  • Redis实践记录与总结
  • 持续总结中!2024年面试必问 20 道 Rocket MQ面试题(三)
  • Android 自定义Adapter关键函数getView性能最优使用
  • Linux服务上MySQL的启动、重启和关闭
  • ctfshow web入门 嵌入式 bash cpp pwn
  • 【ONE·Git || 基本用法入门】
  • 【运维项目经历|021】Spark大数据分析平台建设项目