当前位置: 首页 > news >正文

Spark大数据处理讲课笔记2.4 IDEA开发词频统计项目

文章目录

  • 零、本讲学习目标
  • 一、词频统计准备工作
    • (一)启动集群的HDFS与Spark
    • (二)在HDFS上准备单词文件
  • 二、本地模式执行Spark程序
    • (一)创建Maven项目
    • (二)添加Spark相关依赖,打包插件
    • (三)编写代码,实现功能
    • (四)运行程序,查看结果
  • 三、集群模式执行Spark程序
    • (一)添加打包插件
    • (二)修改代码,打包程序
    • (三)执行提交命令

零、本讲学习目标

  1. 掌握本地模式执行Spark程序
  2. 掌握集群模式执行Spark程序

一、词频统计准备工作

  • 单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现单词计数。
  • 在IntelliJ IDEA中新建Maven管理的Spark项目,并在该项目中使用Scala语言编写Spark的WordCount程序,最后将项目打包提交到Spark集群(Standalone模式)中运行。

(一)启动集群的HDFS与Spark

  • 启动HDFS服务
    在这里插入图片描述
  • 启动Spark集群
    在这里插入图片描述

(二)在HDFS上准备单词文件

  • 在本地创建单词文件 - words.txt
    在这里插入图片描述

  • HDFS上的单词文件 - words.txt
    在这里插入图片描述

二、本地模式执行Spark程序

(一)创建Maven项目

(二)添加Spark相关依赖,打包插件

(三)编写代码,实现功能

(四)运行程序,查看结果

三、集群模式执行Spark程序

(一)添加打包插件

(二)修改代码,打包程序

(三)执行提交命令

http://www.lryc.cn/news/45579.html

相关文章:

  • 【ChatGPT 】国内无需注册 openai 即可访问 ChatGPT:ChatGPT Sidebar 浏览器扩展程序的安装与使用
  • 使用fetch()异步请求API数据实现汇率转换器
  • GPT-4“王炸”,10秒钟开发一套Web + APP 系统
  • Disjoint 集合数据结构或 Union-Find 算法简介
  • uniapp中nvue与vue的区别?
  • 带头双向循环链表的实现
  • 大屏使用dv-digital-flop定时刷新显示总人数
  • Java面向对象部分 个人学习记录
  • MySQL数据库——对Linux MySQL软件包的一些说明
  • 【JavaEE进阶】——第二节.Spring核心和设计思想
  • twitter开源算法(1)For You推荐系统架构
  • A General Framework for Uncertainty Estimation in Deep Learning源码阅读(二)
  • 串行通信协议---HART协议
  • 【独家】华为OD机试 - 寻找密码(C 语言解题)
  • FPGA有哪些优质的带源码的IP开源网站?
  • 基于模型预测控制(MPC)的微电网调度优化的研究(Matlab代码实现)
  • Postman接口测试之Mock快速入门
  • 分享一个国内可用的免费ChatGPT网站
  • 15. 三数之和(Java)
  • Navicat Premium 16安装教程
  • 蓝桥杯刷题冲刺 | 倒计时8天
  • 四.JAVA基础面试题:重要知识
  • 某面试官分享经验:看求职者第一眼,开口说第一句话,面试结果就差不多定了,准确率高达90%以上...
  • Java开发 - 消息队列之RabbitMQ初体验
  • 蓝桥杯入职项目(HTML + springBoot)
  • 【IAR工程】STM8S208RB基于ST标准库下按键检测
  • 【5】深度学习之Pytorch——如何使用张量处理文本数据集(语料库数据集)
  • 《Spring系列》第5章 refresh()
  • ThreeJS-缩放、旋转(四)
  • 数据更新 | CnOpenData法拍房数据