当前位置: 首页 > news >正文

spark datasourceV1和v2

datasourceV2

一文理解 Apache Spark DataSource V2 诞生背景及入门实战
https://zhuanlan.zhihu.com/p/83006243

2.3 Data source API v2

https://issues.apache.org/jira/browse/SPARK-15689

Because of the above limitations/issues, the built-in data source implementations (like parquet, json, etc.) inside Spark SQL are not using this public Data Source API. Instead, they use an internal/non-public interface.

https://issues.apache.org/jira/browse/SPARK-13664

动机

Since its input arguments include DataFrame/SQLContext, the data source API compatibility depends on the upper level API.
依赖 DataFrame/SQLContext, 上层api

The physical storage information (e.g., partitioning and sorting) is not propagated from the data sources, and thus, not used in the Spark optimizer.
分区排序没有传播给spark

Extensibility is not good and operator push-down capabilities are limited.
扩展的下推能力被限制

Lacking columnar read interface for high performance.
列的读接口

The write interface is so general without transaction supports.
没有事务支持

spark FileFormatWriter

org.apache.spark.sql.execution.datasources.FileFormatWriter

// We should first sort by partition columns, then bucket id, and finally sorting columns.
val requiredOrdering = partitionColumns ++ bucketIdExpression ++ sortColumns

对写入数据的要求,可以影响logical plan

http://www.lryc.cn/news/22110.html

相关文章:

  • 10种聚类算法的完整python操作示例
  • 构建合作伙伴生态系统刻不容缓
  • 剑指 Offer 55 - I. 二叉树的深度(java解题)
  • 威胁行为者将旧漏洞武器化以发起勒索软件攻击
  • 2023北京健博会/第十届中国国际大健康产博览会
  • Python学习笔记之环境搭建
  • 死锁的总结
  • 强化学习RL 01~ 数学基础
  • Java的运算符
  • 扫地机器人(蓝桥杯C/C++)
  • 如何理解API?API 是如何工作的?(5分钟诠释)
  • PAT--1111 对称日
  • 前端纯函数和副作用概念,且在react上的体现详解
  • 转行软件测试3年了,听前辈说测试前途是IT里最low的,我慌了......
  • CNI 网络流量 5.1 Cilium 介绍和原理
  • 机加行业MES解决方案,助力企业打造数字化透明车间
  • C/C++每日一练(20230227)
  • 总结SpringBoot1.x迁移到2.x需要注意的问题
  • Api接口小知识
  • 「JVM 高效并发」Java 协程
  • Web Spider案例 网洛者 第一题 JS混淆加密 - 反hook操作 练习(五)
  • 前端基础之CSS扫盲
  • mysql组复制、mysql路由器、mysql的MHA高可用
  • 一篇搞懂springboot多数据源
  • Verilog 数据类型和数组简介
  • 【数据结构】时间复杂度和空间复杂度以及相关OJ题的详解分析
  • 31--Vue-前端开发-Vue语法
  • 这份IC设计必读书单,值得所有IC设计工程师一看!
  • Acwing 蓝桥杯 第一章 递归与递推
  • 模型部署笔记