当前位置: 首页 > news >正文

PySpark学习笔记5-SparkSQL

在这里插入图片描述
在这里插入图片描述
sparkSql的数据抽象有两种。
一类是data set适用于java和Scala
一类是data frame适用于java,Scala,python

将r d d转换为data frame

#方式一
df = spark.createDataFrame(rdd,schema=['name','age'])
#方式二
schema = Structtype().
add('id',integertype(),nullable=False).
add('name',StringType(),nullable=True)
df = spark.createDataFrame(rdd, schema)
#方式三
df = rdd.toDF(['id','name'])
df = rdd.toDF(schema)

DSL风格

show()方法,默认展示二十行
printSchema()方法,展示d f的信息
展示制定列
df.select('id','name').show()
df.select(['id','name']).show()
df.select(df['id'],df['name']).show()
过滤数据
df.filter('score<90').show()
df.filter(df['score']<99).show()
df.where('score < 99').show()
df.where(df['score']<99).show()
分组展示
df.groupBy('subject').count().show()
df.groupBy(df['subject']).count().show()

SQL风格

注册成表
df.createTempView('score')临时表
df.createOrReplaceTempView('score')注册临时表存在就替换
df.createGlobalTempView('score')注册一个全局表
注册好临时表之后可以执行s q l查询
df2 = spark.sql("""select * from score where score < 99""")
df2.show()

词频统计案例

sql风格处理
rdd = sc.textFile('./a.txt').flatMap(lmda x: x.split('')).map(lambda x:[x])
df = rdd.toDF(['word'])
df.createTempView('words')
spark.sql("""select word,count(*) as cnt from words group by word order by cnt desc""").show()
dsl风格处理
df = spark.read.format('text').load('./a.txt')
df2 = df.withColumn('value',F.explode(F.split(df['value'],'')))
df2.groupBy('value').count().withColumnRenamed('count','cnt').orderBy('cnt',ascending=False).show()

数据清洗API

df.dropDuplicates().show()
去除重复值
df.dropDuplicates(['age','job']).show()
按照列名去除重复值
df.dropna().show()
如果有缺失值删除此行
df.dropna(thresh=3).show()
有效列最少三个才能保存此行
df.dropna(thresh=2,subset=['name','age']).shwo()
针对这两个列必须有效列为两个才能保留数据
df.fillna({'name':'位置姓名','age':'1','job':'worker'}).show()
对制定列用指定值进行缺失值填充

在这里插入图片描述
RDD运行流程:代码-- DAG调度器逻辑任务-- Task调度器任务分配和管理监控-- worker干活

http://www.lryc.cn/news/532276.html

相关文章:

  • windows版的docker如何使用宿主机的GPU
  • Python爬虫:1药城店铺爬虫(完整代码)
  • 代码随想录算法训练营打卡第55天:并查集相关问题;
  • K8S学习笔记-------1.安装部署K8S集群环境
  • 云原生周刊:K8s引领潮流
  • C_位运算符及其在单片机寄存器的操作
  • 【算法篇】贪心算法
  • Selenium 浏览器操作与使用技巧——详细解析(Java版)
  • ioDraw桌面版 v3.4.0发布!AI文生图,AI图生图,手绘风格一键转换!
  • 深入理解Node.js_架构与最佳实践
  • 安装和卸载RabbitMQ
  • 第27节课:安全审计与防御—构建坚固的网络安全防线
  • 【蓝桥杯】日志统计
  • 23.Word:小王-制作公司战略规划文档❗【5】
  • 基于单片机的智能安全插座(论文+源码)
  • 2025年人工智能技术:Prompt与Agent的发展趋势与机遇
  • vue2-v-if和v-for的优先级
  • C++六大默认成员函数
  • 基于springboot校园点歌系统
  • pycharm 中的 Mark Directory As 的作用是什么?
  • 【Elasticsearch】文本分类聚合Categorize Text Aggregation
  • 算法随笔_40: 爬楼梯
  • 【Linux探索学习】第二十七弹——信号(一):Linux 信号基础详解
  • 【数学】矩阵、向量(内含矩阵乘法C++)
  • 设置git区分大小写
  • 排序算法与查找算法
  • Github 2025-01-31Java开源项目日报 Top10
  • Java进阶笔记(中级)
  • 2025游戏行业的趋势预测
  • 4-ET框架demo的运行