当前位置: 首页 > news >正文

大数据学习(31)-Spark非常用及重要特性

&&大数据学习&&
🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

spark中引入过很多不常用的特性。但是非常重要的特性。

  1. 动态分区裁剪(Dynamic Partition Pruning):在查询过程中,Spark可以根据已经读取的数据动态地裁剪不需要的分区,从而减少数据的扫描量,提高查询效率。这个特性在处理大规模数据集时非常有用,可以大大减少不必要的计算和数据传输。
  2. 自适应执行优化(Adaptive Execution Optimization):Spark可以根据运行时的统计信息动态地调整执行计划,例如将SortMergeJoin转换为BroadcastHashJoin,或者将大任务拆分成小任务等。这些优化可以提高Spark的执行效率和资源利用率。
  3. 数据源API的改进:Spark提供了更丰富的数据源API,支持更多的数据格式和存储系统。这使得Spark可以更容易地与其他系统进行集成,从而扩展其应用范围。
  4. 更好的内存管理:Spark在内存管理方面进行了改进,可以更高效地利用内存资源。例如,Spark引入了Off-Heap内存管理机制,可以避免在JVM堆内存不足时发生OutOfMemoryError错误。
  5. 更好的错误处理和调试支持:Spark提供了更详细的错误信息和调试支持,可以帮助开发人员更快地定位和解决问题。
  6. Kubernetes集成:随着容器技术的流行,Spark也提供了与Kubernetes的集成,使得用户可以在Kubernetes集群上部署和管理Spark应用。
  7. Barrier Execution Mode:这个新特性允许Spark在需要所有任务都完成的情况下进行同步操作,例如MPI风格的算法。
  8. Structured Streaming的改进:Structured Streaming是Spark的流处理模块,它在每个新版本中都会得到改进和优化,以提供更好的性能和易用性。

以上仅仅是部分spark在执行过程中的重要知识,这里只做了简要解释与介绍。深入了解可以看看其他博主的文章。上述的SortMergeJoin转换为BroadcastHashJoin在之前的文章中有提及过,还有hive的内存管理机制等等,在我的主页都可以查看。

http://www.lryc.cn/news/272604.html

相关文章:

  • 【教学类-43-14】 20240103 (4宫格数独:正确版:576套) 不重复的基础模板数量:576套
  • AIGC开发:调用openai的API接口实现简单机器人
  • c基础(二)
  • 人工智能趋势报告解读:ai野蛮式生长的背后是机遇还是危机?
  • 三、C语言中的分支与循环—goto语句 (10) (完)
  • RabbitMQ 常见问题
  • 阶段二-Day10-日期类
  • 多任务并行处理相关面试题
  • Shell脚本学习笔记
  • ROS-安装xacro
  • 为什么说 $mash 是 Solana 上最正统的铭文通证?
  • 安装elasticsearch、kibana、IK分词器、扩展IK词典
  • Spring中常见的BeanFactory后处理器
  • FPGA LCD1602驱动代码 (已验证)
  • c++编程要养成的好习惯
  • 后台管理项目的多数据源方案
  • 视频美颜SDK趋势畅想:未来发展方向与应用场景
  • C++ const 限定符的全面介绍
  • Vue 中的 ref 与 reactive:让你的应用更具响应性(上)
  • 华为云CCE-集群内访问-根据ip访问同个pod
  • Kasada p.js (x-kpsdk-cd、x-kpsdk-ct、integrity)
  • Thinkphp 5框架学习
  • 麒麟云增加计算节点
  • 使用Redis进行搜索
  • Oracle修改用户密码
  • ​LeetCode解法汇总1276. 不浪费原料的汉堡制作方案
  • Vue解决跨域问错误:has been blocked by CORS policy 后端跨域配置
  • 【谷歌云】注册谷歌云 创建Compute Engine
  • 面试数据库八股文五问五答第四期
  • 2023 年中国金融级分布式数据库市场报告:TiDB 位列领导者梯队,创新能力与增长指数表现突出