当前位置：首页 > news >正文

Spark---介绍及安装

news 2025/7/28 1:03:53

一、Spark介绍

1、什么是Spark

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark是Scala编写，方便快速编程。

2、总体技术栈讲解

3、Spark与MapReduce的区别

都是分布式计算框架，Spark基于内存，MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上，Spark中除了基于内存计算外，还有DAG有向无环图来切分任务的执行先后顺序。

4、Spark运行模式

Local

多用于本地测试，如在eclipse，idea中写程序测试等。

Standalone

Standalone是Spark自带的一个资源调度框架，它支持完全分布式。

Yarn

Hadoop生态圈里面的一个资源调度框架，Spark也是可以基于Yarn来计算的。

Mesos

资源调度框架。要基于Yarn来进行资源调度，必须实现AppalicationMaster接口，Spark实现了这个接口，所以可以基于Yarn。

二、Spark基于Maven开发

1、IDEA创建Maven项目

1）创建项目

2）创建选择maven-archetype-quickstart

3）配置名称，点击下一步配置Maven及本地Maven仓库地址

4）配置名称和位置，并创建

5）更新替换Maven pom.xml文件,注意groupId，artifactId，version不要更新替换。

6）在main 目录下创建javaCode和scalaCode 并指定为源目录。名称任意。

将main下的javaCode和scalaCode指定为源目录：

http://www.lryc.cn/news/241803.html

相关文章：

uni-app:实现request请求的递归（设置request请求的访问次数），并且调用自定义方法给出返回值

数据结构-归并排序+计数排序

Qml使用cpp文件的信号槽

聚类笔记：HDBSCAN

【Python】批量将PDG合成PDF，以及根据SS号重命名秒传的文件

2023亚太杯数学建模A题思路 - 采果机器人的图像识别技术

3、LeetCode之无重复字符的最长子串

CONDITIONS EVALUATION REPORT-解决方案

计算机网络——路由

python+requests+pytest+allure自动化框架

超级应用平台（HAP）起航

cocos2dx Animate3D（二）

基于java技术的社区交易二手平台

（Matalb回归预测）GA-BP遗传算法优化BP神经网络的多维回归预测

【Docker】从零开始：10.registry搭建私有仓库

树莓派上使用Nginx通过内网穿透实现无公网IP访问内网本地站点

长征故事vr互动教育体验系统让师生感同身受

汽车级芯片NCV7518MWATXG 可编程六沟道低压侧 MOSFET预驱动器特点、参数及应用

【分布式】小白看Ring算法 - 03

使用Git bash切换Gitee、GitHub多个Git账号

【RtpRtcp】1： webrtc m79：audio的ChannelReceive 创建并使用

Ubuntu系统安装docker

如何访问linux上的web服务

Vatee万腾的数字化掌舵：Vatee科技解决方案的全面引领

YOLOv5 第Y6周模型改进

Unity Android FireBase bugly报错查询

React中如何解决点击＜Tree＞节点前面三角区域不触发onClick事件

如何利用4G路由器构建茶饮连锁店物联网

【2024系统架构设计】系统架构设计师第二版-大数据架构理论设计与实践