当前位置: 首页 > news >正文

Python与Spark

1.什么是Spark

Spark用于对海量数据进行分布式计算

pyspark是利用Python语言完成Spark任务的第三方包

2.安装pyspark

打开命令行,输入【pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark】

3.pyspark入门

4. pyspark输入数据

(1)输入数据容器

查看rdd中的内容,用collect()方法

(2)输入文件

5.pyspark处理数据

(1)map成员方法(算子)

map方法用于逐个处理rdd中的数据

(2)flatmap算子

在map的基础上,多了解除嵌套的功能

(3)reduceByKey算子

对二元元组按照key分组聚合后 ,对每个组内的元素两两进行处理

 (4)filter算子

过滤元素,只保留满足条件的

(5)distinct算子

对rdd中的数据去重 

(6)sortBy算子

按照什么样的规则进行排序 

6. pyspark输出数据为Python对象

(1)collect算子

(2)reduce算子

(3)take算子

(4)count算子 

 7.pyspark输出数据到文件中

saveAsTextFile算子

http://www.lryc.cn/news/603749.html

相关文章:

  • Linux_库制作与原理浅理解
  • vim的`:q!` 与 `ZQ` 笔记250729
  • grep常用指令
  • 【lucene】SegmentCoreReaders
  • 【lucene】currentFrame与staticFrame
  • Qt 移动应用传感器开发
  • 20250729使用WPS打开xlsx格式的电子表格时候隐藏显示fx的编辑栏的方法
  • ElasticStack技术栈概述及Elasticsearch8.2.2集群部署并更换JDK版本为openjdk-17
  • sqlite3---维护命令、回调函数
  • 【机器学习深度学习】分布式训练的核心技术全解:数据并行、模型并行、流水线并行与3D混合并行
  • 基于最小二乘支持向量机(LSSVM)的气象预测
  • css 二维变换之详说
  • 引领汽车加速向具身智能进化,吉利携阶跃星辰参展WAIC 2025
  • 考古学家 - 华为OD统一考试(JavaScript 题解)
  • STM32寄存器中的缩写
  • 【HTML】浅谈 script 标签的 defer 和 async
  • 数据库4.0
  • 健壮性篇(一):优雅地“拥抱”错误:构建一个可预测的错误处理边界
  • vue-计算属性
  • Android Slices:让应用功能在系统级交互中触手可及
  • FPGA数码管驱动模块
  • windows软件ARM64和AMD64(x64)区别,如何查看电脑支持哪种
  • 沪铝本周想法
  • C++ 模板补充
  • 网工知识——OSPF摘要知识
  • 重生之我在暑假学习微服务第四天《Docker-下篇》
  • 《林景媚与时间守护者》
  • 博途SCL: Input、Output、Static、Temp、Constant、InOut 的详细介绍及案例
  • 实现视频实时马赛克
  • DevOps 详解