当前位置: 首页 > news >正文

SparkSQL和Hive语法差异

SparkSQL和Hive语法差异

1、仅支持Hive

  1. SparkSQL关联条件on不支持函数rand()
  2. 创建零时表时,Spark不支持直接赋值null
  3. Spark无法读取字段类型为void的表
  4. SparkSQL中如果表达式没有指定别名,SparkSQL会将整个表达式作为别名,如果表达式中包含特殊字符(如逗号)。则CTAS建表会失败

2、仅支持SparkSQL

SparkSQL允许在join on条件中使用or等不等式值关联语句,Hive中不允许,只能用等值关联

3、相同函数差异

  1. Spark运行时用到的hash函数,与hive的哈希算法不同,如果使用hash(),结果和hive的hash()会有差异
  2. Hive和sparkSQL使用grouping sets生成的grouping_id不一致
  3. regexp_extract未匹配上的话,hive里回的是null,但是在spark里返回的是空字符
  4. sparkSQL中的row_number的over中不能省略sort by 或order by
  5. grouping_id()函数生成的数据不同
  6. reflect()函数中,如果入参有非法数据或者null,hive会返回null,而spark会抛出异常

创建DataFrame

Row 类型 表示一行数据

  • datafram就算是多行构成
# Row行数据操作
# 导入行类
from pyspark.sql import Row定义每行数据 有两种获取方法=重点
r1 = Row(id=1,name='张三')
r2 = Row(id=2,name='李四')
# 操作每行数据
# 获取对应字段数据
print(r1.id)
print(r1.name)
print(r2['id'])
print(r2['name'])定义行数据不指定字段 = 只有一种获取方法
r3 = Row(3,'王五')
print(r3[1])df.printSchema()

schema表信息(这种指定表信息的更不常用

  • 定义dataframe中的表的字段名和字段类型
# 导入数据类型
from pyspark.sql.types import *
# 定义schema信息
# 使用StructType类进行定义
# add()方法是指定字段信息
# 第一参数,字段名
# 第二个参数,字段信息
# 第三个参数是否允许为空值  默认是True,允许为空
schema_type = StructType().\add('id',IntegerType()).\add('name',StringType()).\add('age',IntegerType(),False)df.printSchema()
# 导入行类Row
from pyspark.sql import SparkSession, Row
from pyspark.sql.types import *# 创建行数据
r1 = Row(id=1, name='张三', age=20)
r2 = Row(id=2, name='李四', age=22)
# 创建元数据
schema = StructType(). \add('id', IntegerType()). \add('name', StringType()). \add('age', IntegerType())# 创建dataframe
# 生成sparksession对象  按照固定写法创建
ss = SparkSession.builder.getOrCreate()
# 使用sparksession对象方法创建df
# createDataFrame 第一参数是一个列表数据,将每行数据放入列表
# 第二个参数指定表元数据信息
# df是一个dataframe类型的对象
df = ss.createDataFrame([r1, r2], schema=schema)# dataframe数据的操作
# 查看df数据
df.show()  # 查看所有数据,超过20行时,默认只显示20行
# 查看元信息
df.printSchema()
http://www.lryc.cn/news/280935.html

相关文章:

  • XCODE IOS 静态链接库替换升级
  • API设计:从基础到优秀实践
  • 路由的安装顺序
  • 华为OD机试真题-围棋的气--Java-OD统一考试(C卷)
  • CANFD数据记录仪在新能源汽车复杂路测下的应用
  • java: 5-6 break
  • 如何使用Imagewheel搭建一个简单的的私人图床无公网ip也能访问
  • 响应式编程Reactor API大全(上)
  • vue3自定义指令
  • ECharts 多季度连续显示到一个图中。
  • 【Microsoft Copilot】手机端发布 ——GPT-4, DALL-E3 免费用
  • [蓝桥杯 2013 省 AB] 错误票据
  • IDEA GitHub令牌原理(Personal Access Token)
  • [开发语言][python][c++]:C++中的this指针和Python中的Self -- 26岁生日
  • Android Traceview 定位卡顿问题
  • 第三方 Cookie 被禁用?企业该如何实现用户精准运营和管理?
  • Autosar PNC网络管理配置(2)-基于ETAS软件
  • 【SpringMVC快速使用】1.@RestController @RequestMapping 2.logback的使用
  • C2593 operator << 不明确
  • vue:使用【3.0】:条件模块
  • Kafka与RabbitMQ的区别
  • C++力扣题目538--把二叉搜索树转换为累加树
  • 曲线生成 | 图解贝塞尔曲线生成原理(附ROS C++/Python/Matlab仿真)
  • 【一万字干货】一篇给你讲清楚智慧城市——附送智慧系列开发项目合集
  • 关于如何禁用、暂停或退出OneDrive等操作,看这篇文件就够了
  • Vue3-46-Pinia-获取全局状态变量的方式
  • 数据库——DAY1(Linux上安装MySQL8.0.35(网络仓库安装))
  • 原生微信小程序-两次设置支付密码校验,密码设置二次确认
  • 【Python学习】Python学习15-模块
  • ARCGIS PRO SDK 设置UI控件状态:启用/禁用