当前位置: 首页 > news >正文

idea创建spark教程

1、环境准备

java -version

scala -version

mvn -version

image-20230108092530099

spark -version

image-20230108094100150

2、创建spark项目

创建spark项目,有两种方式;一种是本地搭建hadoop和spark环境,另一种是下载maven依赖;最后在idea中进行配置,下面分别记录两种方法

2.1 本地搭建hadoop和spark环境

参考window搭建spark + IDEA开发环境

2.2 下载maven依赖

参考 Windows平台搭建Spark开发环境(Intellij idea 2020.1社区版+Maven 3.6.3+Scala 2.11.8)

参考 Intellij IDEA编写Spark应用程序超详细步骤(IDEA+Maven+Scala)

2.2.1 maven项目pom配置

<properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><spark.version>2.4.0</spark.version><scala.version>2.11</scala.version><scope.flag>provide</scope.flag>
</properties><dependencies><!--spark 依赖--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-hive_${scala.version}</artifactId><version>${spark.version}</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-mllib_${scala.version}</artifactId><version>${spark.version}</version></dependency><!--maven自带依赖--><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>3.8.1</version><scope>test</scope></dependency>
</dependencies>

2.2.2 maven中settings文件配置

<?xml version="1.0" encoding="UTF-8"?>
<settings xmlns="http://maven.apache.org/SETTINGS/1.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0 http://maven.apache.org/xsd/settings-1.0.0.xsd"><!--设置本地maven仓库-->
<localRepository>D:\development\LocalMaven</localRepository><!--设置镜像-->
<mirrors><mirror><id>nexus-aliyun</id><mirrorOf>central</mirrorOf><name>Nexus aliyun</name><url>http://maven.aliyun.com/nexus/content/groups/public</url></mirror>
</mirrors></settings>

2.3 Project Settings 和 Project Structure配置

image-20230108112808444

image-20230108112952701

image-20230108113015165

2.4 创建spark maven项目

2.4.1 Archetype选择quickstart,选择JDK

image-20230108113302280

2.4.2 modules新建scala Sources文件

image-20230108113450895

2.4.3 libraries新增sacla sdk,可以创建scala项目

image-20230108113631415

3. spark程序

word count 和spark show函数

import org.apache.spark.sql.SparkSessionobject HelloWord {def main(args: Array[String]): Unit = {val spark = SparkSession.builder.master("local").appName("Spark CSV Reader").getOrCreateval sc = spark.sparkContext// 输入文件val input = "D:\\Project\\RecommendSystem\\src\\main\\scala\\weekwlkl"// 计算频次val count = sc.textFile(input).flatMap(x => x.split(" ")).map(x => (x, 1)).reduceByKey((x, y) => x + y);// 打印结果count.foreach(x => println(x._1 + ":" + x._2));import spark.implicits._Seq("1", "2").toDF().show()// 结束sc.stop()}
}

4. 总结

创建spark项目,并且本地调试通过,有很多注意点,包括idea的配置,再次记录一下,以便后面学习

tips

  1. maven helper用来查看是否存在jar包冲突

image-20230108160319812

\weekwlkl)

4. 总结

创建spark项目,并且本地调试通过,有很多注意点,包括idea的配置,再次记录一下,以便后面学习

tips

  1. maven helper用来查看是否存在jar包冲突
    image-20230108160319812
http://www.lryc.cn/news/95045.html

相关文章:

  • 【JavaEE】DI与DL的介绍-Spring项目的创建-Bean对象的存储与获取
  • C#图片处理
  • php 开发微信 h5 支付 APIv3 接入超详细流程
  • HTML学习 第一部分(前端学习)
  • python 实现串口指令通讯
  • pytorch深度学习逻辑回归 logistic regression
  • 数据仓库建设-数仓分层
  • 共享与协作:时下最热门的企业共享网盘推荐!
  • mysql取24小时数据
  • TCP/IP网络编程 第十五章:套接字和标准I/O
  • SaleSmartly,客户满意度调查的绝对好助手
  • MySQL高阶语句
  • 手机快充协议
  • centos 7升级gcc到10.5.0
  • 从脚手架搭建到部署访问路程梳理
  • 数据库应用:MySQL数据库SQL高级语句与操作
  • xshell连接WSL2
  • Flask新手教程
  • 拼多多API接口,百亿补贴商品详情页面采集
  • C++入门(未完待续)
  • Python爬虫学习笔记(四)————XPath解析
  • 知识图谱推理的学习逻辑规则(上)
  • 【从零开始学习C++ | 第二十一篇】C++新增特性 (上)
  • 你真的会用async和await么?
  • vscode远程连接提示:过程试图写入的管道不存在(删除C:\Users\<用户名>\.ssh\known_hosts然后重新连接)
  • 【005】基于深度学习的图像语 通信系统
  • 基于ssm的社区生活超市的设计与实现
  • 长短期记忆网络(LSTM)原理解析
  • vscode debug的方式
  • 微信加粉计数器后台开发