当前位置：首页 > news >正文

2024.9.26 Spark学习

news 2025/7/8 20:58:00

资料：

Spark基础入门-第一章-1.1-Spark简单介绍_哔哩哔哩_bilibili

（1）基础知识

Apache Spark 是用于大规模数据（large-scale data）处理的统一分析引擎。

分布式处理数据

PySpark模块

Spark 和 Hadoop 有区别，不能完全取代 Hadoop

Spark 在内存中的运算速度比 Hadoop 的 MapReduce 快 100 倍

代码简单，API丰富，便于使用

df = spark.read.json("logs.json")

运行方式

Spark 支持多种运行方式，包括在 Hadoop 和 Mesos 上，也支持 Standalone 的独立运行模式，同时也可以运行在云 Kubernetes(Spark 2.3 开始支持)上。

对于数据源而言，Spark支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

（2）Spark安装

http://www.lryc.cn/news/445995.html

相关文章：

我与Linux的爱恋：进程地址空间

C++的哲学思想

IO(输入输出流)

python爬虫：从12306网站获取火车站信息

Android个性名片界面的设计——约束布局的应用

Python 课程18-SQLAlchemy

Module did not self-register: ‘drivelist.node‘报错解决

zabbix基本概念与组件

Linux常用网络工具及示例

Go容器化微服务系统实战

研究生三年概括

MongoDB在Linux系统中的安装与配置指南

Linux下如何实现不用加路径调用启动脚本

编程练习2 数据单元的变量替换

mysql的查询操作

0基础学前端 day2

Invalid Executable The executable contains bitcode

音视频入门基础：FLV专题（4）——使用flvAnalyser工具分析FLV文件

Java服务端开发中的网络安全：防护DDoS与数据泄露的策略

CodeMeter 8.20AxProtector 11.50版本更新

C语言在嵌入式系统中的应用有哪些？

Android 系统WIFI AP模式

java jdk8内存序列化为xml

脚本注入网页:XSS

Python将ONNX转为Json脚本

医学数据分析实训项目九糖尿病风险预测

C语言-文件操作-一些我想到的、见到的奇怪的问题

变电站设备检测系统源码分享

电机foc线上课程开课啦

解决Mac 默认设置 wps不能双面打印的问题