当前位置: 首页 > news >正文

Scala---WordCount

一、创建Maven项目导入pom.xml文件

安装Maven仓库管理工具,版本要求是3.2版本以上。新建Maven项目,配置pom.xml。导入必要的包。

二、Spark-Scala版本的WordCount

1.val conf = new SparkConf()
2.conf.setMaster("local")
3.conf.setAppName("scala-wc")
4.val sc = new SparkContext(conf)
5.val lines = sc.textFile("./data/words")
6.val words = lines.flatMap(line=>{line.split(" ")})
7.val pairWords = words.map(word=>{new Tuple2(word,1)})
8.val result = pairWords.reduceByKey((v1:Int,v2:Int)=>{v1+v2})
9.result.foreach(println)

三、Spark-Java版本的WordCount

1.SparkConf conf = new SparkConf();
2.conf.setMaster("local");
3.conf.setAppName("java-wc");
4.JavaSparkContext sc = new JavaSparkContext(conf);
5.JavaRDD<String> lines = sc.textFile("./data/words");
6.JavaRDD<String> words = lines.flatMap(new   FlatMapFunction<String, String>() {
7.  @Override
8.  public Iterator<String> call(String s) throws Exception {
9.    String[] split = s.split(" ");
10.    return Arrays.asList(split).iterator();
11.  }
12.});
13.JavaPairRDD<String, Integer> pairWords = words.mapToPair(new PairFunction<String, String, Integer>() {
14.  @Override
15.  public Tuple2<String, Integer> call(String word) throws Exception {
16.    return new Tuple2<>(word, 1);
17.  }
18.});
19.JavaPairRDD<String, Integer> result = pairWords.reduceByKey(new Function2<Integer, Integer, Integer>() {
20.  @Override
21.  public Integer call(Integer v1, Integer v2) throws Exception {
22.    return v1 + v2;
23.  }
24.});
25.result.foreach(new VoidFunction<Tuple2<String, Integer>>() {
26.  @Override
27.  public void call(Tuple2<String, Integer> tuple2) throws  Exception {
28.    System.out.println(tuple2);
29.  }
30.});
31.sc.stop();

http://www.lryc.cn/news/241655.html

相关文章:

  • GTC2023全球流量大会蓄势待发,菊风在7B57展位等你!
  • 喜讯!云起无垠成为国家信息安全漏洞库(CNNVD)技术支撑单位
  • cc linux用root用户执行chmod 777 -R ./提示 Operation not permitted怎么办?
  • scrapy框架流程
  • 802.11 帧的Reason Code 位和Status Code 位
  • 骨传导能保护听力吗?为什么说骨传导耳机可以保护听力?
  • 【iOS】实现评论区展开效果
  • POE交换机——电源解决方案-升压控制器\降压控制器\中高压降压转换器
  • [C/C++]数据结构 循环队列
  • Cache学习(2):Cache结构 命中与缺失 多级Cache结构 直接映射缓存
  • vue前端前端页面权限验证方式
  • jenkins springCloud项目优雅下线
  • indexOf
  • STM32分区跳转问题
  • 亿级流量架构服务降级
  • 【技术分享】RK3399 Ubuntu通过Python实现录音和播放功能
  • 关于vs code Debug调试时候出现“找不到任务C/C++: g++.exe build active file” 解决方法
  • 交叉导轨在光学工作台起什么重要作用?
  • 易点易动固定资产管理系统:实现固定资产与财务系统的高效对接
  • 做亚马逊多久可以赚钱?做亚马逊需要多少资金?——站斧浏览器
  • 计算机应用基础_错题集_基础知识---网络教育统考工作笔记006
  • C#面试题3
  • MariaDB(基础信息)
  • SpringBoot + 通义千问 + 自定义React组件,支持EventStream数据解析!
  • Redis中文结果查看方式
  • 计算机组成原理-磁盘存储器
  • 连接docker swarm和凌鲨
  • Qt实现画的图片移动
  • 比较2个点的3种结构在不规则平面上的占比
  • 最小二乘线性回归