当前位置: 首页 > news >正文

大数据课程K3——Spark的常用案例

文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州

 ▲ 本章节目的

⚪ 掌握Spark的常用案例——WordCount;

⚪ 掌握Spark的常用案例——求平均值;

⚪ 掌握Spark的常用案例——求最大值和最小值;

⚪ 掌握Spark的常用案例——TopK;

⚪ 掌握Spark的常用案例——二次排序;

一、案例——WordCount

1. 实现步骤

1. 创建spark的项目,在scala中创建项目 导入spark相关的jar包。

2. 开发spark相关代码。

代码示例:

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

object WordCountDriver {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("spark://hadoop01:7077").setAppName("wordcount")

    val sc=new SparkContext(conf)

    val data=sc.textFile("hdfs://hadoop01:9000/words.txt", 2)

    val result=data.flatMap { x => x.split(" ") }.map { x => (x,1) }.reduceByKey(_+_)

    result.saveAsTextFile("hdfs://hadoop01:9000/wcresult")

  }

}

3. 将写好的项目打成jar,上传到服务器,进入bin目录。

执行:spark-submit --class cn.tedu.WordCountDriver /home/software/spark/conf/wc.jar

二、案例——求平均值

案例文件:

1 16

2 74

3 51

4 35

5 44

6 95

7 5

8 29

10 60

11 13

12 99

13 7

14 26

正确答案:

42

代码示例一:

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

object AverageDriver {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("local").setAppName("AverageDriver")

    val sc=new SparkContext(conf)

http://www.lryc.cn/news/132414.html

相关文章:

  • 85-最大矩阵
  • 8.3 【C语言】通过指针引用数组
  • 基于Flink CDC实时同步PostgreSQL与Tidb【Flink SQL Client模式下亲测可行,详细教程】
  • Vue-5.编译器Idea
  • qiuzhiji3
  • JVM——垃圾回收(垃圾回收算法+分代垃圾回收+垃圾回收器)
  • QT TLS initialization failed问题(已解决) QT基础入门【网络编程】openssl
  • SpringMVC之获取请求参数
  • 【无标题】QT应用编程: QtCreator配置Git版本控制(码云)
  • JVM面试题-2
  • kafka安装说明以及在项目中使用
  • 二叉树搜索
  • 【先进PID控制算法(ADRC,TD,ESO)加入永磁同步电机发电控制仿真模型研究(Matlab代码实现)
  • k8s集群生产环境的问题处理
  • serve : 无法将“serve”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。
  • 【LVS】2、部署LVS-DR群集
  • 设计模式 -- 单例模式(传统面向对象与JavaScript 的对比实现)
  • YOLOX算法调试记录
  • 基于小程序的汽车俱乐部系统的设计与实现(论文+源码)_kaic
  • ProgrammingArduino物联网
  • SSM框架的学习与应用(Spring + Spring MVC + MyBatis)-Java EE企业级应用开发学习记录(第一天)Mybatis的学习
  • Programming abstractions in C阅读笔记: p118-p122
  • 2023国赛数学建模思路 - 案例:ID3-决策树分类算法
  • selenium 选定ul-li下拉选项中某个指定选项
  • 回归预测 | MATLAB实现FA-SVM萤火虫算法优化支持向量机多输入单输出回归预测(多指标,多图)
  • 使用pytorch 的Transformer进行中英文翻译训练
  • 解决element的select组件创建新的选项可多选且opitions数据源中有数据的情况下,回车不能自动选中创建的问题
  • 人工智能大模型加速数据库存储模型发展 行列混合存储下的破局
  • K8S用户管理体系介绍
  • 实现chatGPT 聊天样式