当前位置: 首页 > news >正文

基于spark的北京房价数据分析及价格预测

基于spark的北京房价数据分析及价格预测

项目概况

[👇👇👇👇👇👇👇👇]
点这里,查看所有项目
[👆👆👆👆👆👆👆👆]

数据类型

公开的北京房价数据

开发环境

centos7

软件版本

python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8

开发语言

python、Scala

开发流程

数据上传(hdfs)->数据清洗(spark)->数据分析(spark)->机器学习(spark)->数据存储(mysql)->后端(flask)->前端(html+js+css)

可视化图表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

操作步骤

python安装包


pip3 install pandas==2.0.3 -i https://mirrors.aliyun.com/pypi/simple/
pip3 install flask==3.0.0 -i https://mirrors.aliyun.com/pypi/simple/
pip3 install flask-cors==4.0.1 -i https://mirrors.aliyun.com/pypi/simple/
pip3 install pymysql==1.1.0 -i https://mirrors.aliyun.com/pypi/simple/

启动MySQL


# 查看mysql是否启动 启动命令: systemctl start mysqld.service
systemctl status mysqld.service
# 进入mysql终端
# MySQL的用户名:root 密码:123456
# MySQL的用户名:root 密码:123456
# MySQL的用户名:root 密码:123456
mysql -uroot -p123456

创建MySQL库


CREATE DATABASE IF NOT EXISTS house CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

启动Hadoop


# 离开安全模式: hdfs dfsadmin -safemode leave
# 启动hadoop
bash /export/software/hadoop-3.2.0/sbin/start-hadoop.sh

准备目录


mkdir -p /data/jobs/project/
cd /data/jobs/project/# 解压 "data" 目录下的 "data.7z" 文件
# 上传 "data" 目录下的 "csv" 文件 到 "/data/jobs/project/" 目录# data.csv

上传文件到hdfs


cd /data/jobs/project/hdfs dfs -mkdir -p /data/input/
hdfs dfs -rm -r /data/input/*
hdfs dfs -put -f data.csv /data/input/
hdfs dfs -ls /data/input/

程序打包


cd /data/jobs/project/# 对 "project-spark-house-price-beijing-data-analysis" 项目进行打包
# 打包命令: mvn clean package -Dmaven.test.skip=true
# 上传 "project-spark-house-price-beijing-data-analysis/target" 目录下的 "spark-job.jar" 文件 到 "/data/jobs/project/" 目录

spark数据预处理


cd /data/jobs/project/spark-submit \
--master local[*] \
--class org.example.SparkDataClean \
/data/jobs/project/spark-job.jar /data/input/ /data/output/

spark数据分析


cd /data/jobs/project/spark-submit \
--master local[*] \
--class org.example.SparkAnalysis \
/data/jobs/project/spark-job.jar /data/output/

spark机器学习


cd /data/jobs/project/spark-submit \
--master local[*] \
--class org.example.SparkMLApp \
/data/jobs/project/spark-job.jar /data/output/

启动可视化


mkdir -p /data/jobs/project/myapp/
cd /data/jobs/project/myapp/# 上传 "可视化" 目录下的 "所有" 文件和文件夹 到 "/data/jobs/project/" 目录# 初始化用户表
python3 data_extractor.py# windows本地运行: python app.py
python3 app.py pro
# 用户名: admin
# 密码: admin
http://www.lryc.cn/news/579447.html

相关文章:

  • npm 命令入门指南(前端小白版)
  • 以太坊 Legacy 交易和 EIP-1559 交易
  • C++ 标准模板库算法之 transform 用法
  • RAG从入门到高阶(二):Retrieve-and-Rerank
  • 开源无广告面板mdserver-web:替代宝塔实现服务器轻松管理
  • NCCL的基本使用和常用通信算法源码分析
  • 洛谷-循环结构(1)
  • 前端框架中注释占位与Fragment内容替换的实现与优化
  • 网络基础(3)
  • Spring 6 源码深度掘金:66+核心原理与高频面试攻坚指南
  • 【科研绘图系列】基于R语言的种质资源评分相关性分析与可视化教程
  • 【零基础学AI】第21讲:TensorFlow基础 - 神经网络搭建入门
  • 从生活实例看:点积、内积和矩阵乘法如何玩转机器学习
  • 【maven仓库搜索下载工作流程】
  • 后端 Maven打包 JAR 文件、前端打包dist文件、通过后端服务访问前端页面、Nginx安装与部署
  • 办公文档批量打印器 Word、PPT、Excel、PDF、图片和文本,它都支持批量打印。
  • Flask 遇到了 AttributeError: ‘Babel‘ object has no attribute ‘localeselector‘ 怎么解决
  • TinyWebserver学习(8)-定时器
  • 在 Jetson Orin 开发套件上使用 Hardware Encoder / Decoder 构建 FFmpeg
  • 仿真软件介绍 COMSOL Multiphysics 或 ANSYS Fluent 等 MATLAB OpenFOAM,和在化学上的应用实例
  • 2025年6月一区-田忌赛马优化算法Tianji’s horse racing optimization-附Matlab免费代码
  • Springboot3整合ehcache3缓存--XML配置和编程式配置
  • 【PyCharm 2025.1.2配置debug】
  • 【vmware虚拟机使用】 开始安装centos7操作系统
  • Navicat Premium 12连接Oracle时提示oracle library is not loaded的问题解决
  • 分布式部署下如何做接口防抖---使用分布式锁
  • macOS 26正式发布,全新Liquid Glass设计语言亮相
  • 旅游管理实训室:支撑实践教学的核心载体
  • 5118 API智能处理采集数据教程
  • 项目——视频共享系统测试