当前位置: 首页 > news >正文

Pyspark案例综合(数据计算)

数据计算

map方法

map算子

map算子(成员方法)接受一个处理函数,可用lambda快速编写,对RDD内的元素一一处理,返回RDD对象

链式调用

对于返回值是新的RDD的算子,可以通过链式调用的方式多次调用算子

"""
演示RDD的map成员方法的使用
"""
from pyspark import SparkConf, SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "C:/Microsoft/WindowsApps/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 准备一个RDD
rdd = sc.parallelize([1, 2, 3, 4, 5])
# 通过map方法将全部数据都乘以10
# def func(data):
#     return data * 10rdd2 = rdd.map(lambda x: x * 10).map(lambda x: x + 5)print(rdd2.collect())
# (T) -> U
# (T) -> T# 链式调用

flatMap方法

flatmap方法用于解除嵌套操作。

"""
演示RDD的flatMap成员方法的使用
"""
from pyspark import SparkConf, SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "C:/Microsoft/WindowsApps/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 准备一个RDD
rdd = sc.parallelize(["itcast 666", "777 itcast", "python 666"])# 需求,将RDD数据里面的一个个单词提取出来
rdd2 = rdd.flatMap(lambda x: x.split(" "))
print(rdd2.collect())

在这里插入图片描述

http://www.lryc.cn/news/164987.html

相关文章:

  • 电路电子技术1--关联参考方向及功率的计算
  • 【C++】AVL树的插入操作实现以及验证是否正确(带平衡因子)
  • 【Linux-Day10-信号量,共享内存,消息队列】
  • 使用IntelliJ IDEA本地启动调试Flink流计算工程的2个异常解决
  • 对象及日期对象
  • 鼠标滚轮编码器解析
  • 【PTA】攀拓(PAT)- 程序设计(甲级)2023年春季考试
  • Spring Cloud Gateway 实现原理
  • 嘉泰实业:真实低门槛,安全有保障
  • spring boot 2.7 -> 3.0升级指南
  • MQTT 连接优化指南
  • 算法和数据结构学习中的一些小的工具函数
  • 解决2K/4K高分屏下Vmware等虚拟机下Kail Linux界面显示问题
  • 【校招VIP】java语言考点之双亲委派模型
  • 2023年阿里云新用户云服务器价格表
  • 信号相关名词概念汇总-采样周期、泄露、窗函数等
  • 数字化新零售营销模式如何落地?数字化新零售营销功能推荐
  • 712. 两个字符串的最小ASCII删除和 -- 动规
  • python中的小tips
  • 高精度(加减乘除)
  • java企业数据管理系统
  • 【云原生进阶之PaaS中间件】第二章Zookeeper-3.1分布式架构介绍
  • 2023-09-11力扣每日一题
  • windows10使用wheel安装tensorflow2.13.0/2.10.0 (保姆级教程)
  • 【LeetCode与《代码随想录》】贪心算法篇:做题笔记与总结-JavaScript版
  • Http客户端OkHttp的基本使用
  • 认识网线上的各种参数标号
  • 软件测开记录(一)
  • 基数排序之代码解析
  • 使用C语言EasyX 创建动态爱心背景