当前位置：首页 > news >正文

计算机毕设不知道选什么题目？基于Spark的糖尿病数据分析系统【Hadoop+Spark+python】

news 2025/8/13 11:51:48

精彩专栏推荐订阅：在下方专栏👇🏻👇🏻👇🏻👇🏻

💖🔥作者主页：计算机毕设木哥🔥 💖

文章目录

一、项目介绍
- 选题背景
- 选题意义
二、开发环境
三、视频展示
四、项目展示
五、代码展示
六、项目文档展示
七、总结
- <font color=#fe2c24 >大家可以帮忙点赞、收藏、关注、评论啦👇🏻👇🏻👇🏻

一、项目介绍

选题背景

糖尿病已成为全球性的重大公共卫生挑战，根据国际糖尿病联盟（IDF）最新发布的数据显示，2021年全球糖尿病患者人数已达5.37亿，预计到2045年将增至7.83亿。在我国，情况同样严峻，《中国成人糖尿病流行与控制现状》调研报告指出，我国成人糖尿病患病率高达11.2%，患者总数超过1.4亿，位居世界首位。更令人担忧的是，约有50.1%的糖尿病患者未被诊断，错失了早期干预的宝贵时机。面对如此庞大的患者群体和复杂多样的影响因素，传统的单维度分析方法已难以满足现代医疗健康管理的需求。随着医疗信息化程度不断提升，各类健康数据呈现爆炸式增长态势，这些海量数据中蕴含着丰富的疾病发病规律和风险预测信息。如何有效整合患者的基础特征、生理指标、生活方式等多维度数据，运用先进的大数据技术进行深度挖掘和智能分析，已成为当前糖尿病防控领域亟待解决的关键问题。

选题意义

构建基于Spark的综合糖尿病健康数据分析系统具有重要的理论价值和实践意义。从技术创新角度来看，该系统将Hadoop分布式存储与Spark内存计算技术相结合，能够高效处理大规模医疗健康数据，为慢性疾病的大数据分析提供了新的技术路径和解决方案。在临床应用层面，系统通过对患者年龄、性别、BMI、血糖、血压等27个维度数据的综合分析，可以帮助医疗机构识别糖尿病高风险人群，实现疾病的早期预警和精准干预，有效降低医疗成本和提升治疗效果。对于公共卫生管理部门而言，系统提供的人群流行病学特征分析和风险因素关联性研究结果，能够为制定针对性的糖尿病防控策略和健康政策提供科学依据。同时，系统采用Python、Django、Vue等主流开发技术栈，具有良好的可扩展性和实用性，不仅可以应用于糖尿病领域，还能够为其他慢性疾病的数据分析提供参考模式，推动智慧医疗和精准医学的发展进步。

二、开发环境

大数据技术：Hadoop、Spark、Hive
开发技术：Python、Django框架、Vue、Echarts
软件工具：Pycharm、DataGrip、Anaconda
可视化工具 Echarts

三、视频展示

计算机毕设不知道选什么题目？基于Spark的糖尿病数据分析系统【Hadoop+Spark+python】

四、项目展示

登录模块：

在这里插入图片描述

可视化模块：
在这里插入图片描述

五、代码展示

# 核心功能1：不同年龄段人群糖尿病发病率分析
def analyze_age_diabetes_relationship(spark_session, data_path):# 读取糖尿病数据集df = spark_session.read.csv(data_path, header=True, inferSchema=True)# 定义年龄段分组函数def categorize_age(age):if age < 30:return "青年组"elif age < 50:return "中年组"else:return "老年组"# 注册UDF函数age_categorize_udf = udf(categorize_age, StringType())# 添加年龄段分组列df_with_age_group = df.withColumn("age_group", age_categorize_udf(col("Age")))# 按年龄段分组统计糖尿病发病情况age_stats = df_with_age_group.groupBy("age_group").agg(count("*").alias("total_count"),sum(when(col("Diagnosis") == 1, 1).otherwise(0)).alias("diabetes_count"),avg("Age").alias("avg_age"),stddev("Age").alias("age_stddev"))# 计算发病率并格式化结果age_analysis_result = age_stats.withColumn("incidence_rate", round((col("diabetes_count") / col("total_count") * 100), 2)).withColumn("avg_age_formatted",round(col("avg_age"), 1))# 按发病率降序排列final_result = age_analysis_result.orderBy(desc("incidence_rate"))# 收集结果并转换为字典格式result_data = final_result.collect()analysis_summary = []for row in result_data:summary_dict = {"age_group": row["age_group"],"total_patients": row["total_count"],"diabetes_patients": row["diabetes_count"],"incidence_rate": row["incidence_rate"],"average_age": row["avg_age_formatted"],"risk_level": "高风险" if row["incidence_rate"] > 15 else "中风险" if row["incidence_rate"] > 8 else "低风险"}analysis_summary.append(summary_dict)return analysis_summary# 核心功能2：BMI指数与糖尿病关系分析
def analyze_bmi_diabetes_correlation(spark_session, data_path):# 加载数据diabetes_df = spark_session.read.csv(data_path, header=True, inferSchema=True)# 定义BMI分类函数def classify_bmi(bmi):if bmi < 18.5:return "体重过轻"elif bmi < 24.0:return "正常体重"elif bmi < 28.0:return "超重"else:return "肥胖"# 创建BMI分类UDFbmi_classify_udf = udf(classify_bmi, StringType())# 添加BMI分类列并过滤异常值processed_df = diabetes_df.filter((col("BMI").isNotNull()) & (col("BMI") > 10) & (col("BMI") < 60)).withColumn("bmi_category", bmi_classify_udf(col("BMI")))# 按BMI类别进行分组统计bmi_diabetes_stats = processed_df.groupBy("bmi_category").agg(count("*").alias("total_samples"),sum(when(col("Diagnosis") == 1, 1).otherwise(0)).alias("positive_cases"),avg("BMI").alias("mean_bmi"),min("BMI").alias("min_bmi"),max("BMI").alias("max_bmi"),avg("Age").alias("mean_age"))# 计算各BMI类别的糖尿病发病率bmi_analysis = bmi_diabetes_stats.withColumn("diabetes_rate",round((col("positive_cases") / col("total_samples") * 100), 3)).withColumn("mean_bmi_rounded",round(col("mean_bmi"), 2))# 计算相对风险比（以正常体重为基准）normal_weight_rate = bmi_analysis.filter(col("bmi_category") == "正常体重").select("diabetes_rate").collect()[0]["diabetes_rate"]bmi_risk_analysis = bmi_analysis.withColumn("relative_risk",round(col("diabetes_rate") / normal_weight_rate, 2))# 按糖尿病发病率排序sorted_bmi_result = bmi_risk_analysis.orderBy(desc("diabetes_rate"))# 构建分析结果数据结构bmi_results = sorted_bmi_result.collect()correlation_analysis = []for bmi_row in bmi_results:analysis_record = {"bmi_category": bmi_row["bmi_category"],"sample_count": bmi_row["total_samples"],"diabetes_cases": bmi_row["positive_cases"],"incidence_rate": bmi_row["diabetes_rate"],"average_bmi": bmi_row["mean_bmi_rounded"],"bmi_range": f"{bmi_row['min_bmi']:.1f}-{bmi_row['max_bmi']:.1f}","relative_risk": bmi_row["relative_risk"],"risk_assessment": "极高风险" if bmi_row["relative_risk"] > 2.5 else "高风险" if bmi_row["relative_risk"] > 1.5 else "中等风险" if bmi_row["relative_risk"] > 1.0 else "低风险"}correlation_analysis.append(analysis_record)return correlation_analysis# 核心功能3：糖尿病高风险人群聚类分析
def perform_diabetes_risk_clustering(spark_session, data_path):from pyspark.ml.feature import VectorAssembler, StandardScalerfrom pyspark.ml.clustering import KMeansfrom pyspark.ml.evaluation import ClusteringEvaluator# 读取并预处理数据raw_data = spark_session.read.csv(data_path, header=True, inferSchema=True)# 选择关键特征进行聚类分析feature_columns = ["Age", "BMI", "FastingBloodSugar", "HbA1c", "SystolicBP", "DiastolicBP", "CholesterolTotal", "PhysicalActivity"]# 数据清洗：处理缺失值和异常值cleaned_data = raw_data.filter(reduce(lambda x, y: x & y, [col(c).isNotNull() for c in feature_columns])).filter((col("Age") > 0) & (col("Age") < 120) &(col("BMI") > 10) & (col("BMI") < 60) &(col("FastingBloodSugar") > 50) & (col("FastingBloodSugar") < 500) &(col("HbA1c") > 3) & (col("HbA1c") < 20))# 特征向量化vector_assembler = VectorAssembler(inputCols=feature_columns, outputCol="features_raw")vectorized_data = vector_assembler.transform(cleaned_data)# 特征标准化scaler = StandardScaler(inputCol="features_raw", outputCol="scaled_features")scaler_model = scaler.fit(vectorized_data)normalized_data = scaler_model.transform(vectorized_data)# K-means聚类分析（设置聚类数为4）kmeans_model = KMeans(featuresCol="scaled_features", predictionCol="cluster_id", k=4, seed=42)trained_model = kmeans_model.fit(normalized_data)clustered_data = trained_model.transform(normalized_data)# 计算聚类评估指标evaluator = ClusteringEvaluator(featuresCol="scaled_features", predictionCol="cluster_id")silhouette_score = evaluator.evaluate(clustered_data)# 分析各聚类群体特征cluster_characteristics = clustered_data.groupBy("cluster_id").agg(count("*").alias("cluster_size"),avg("Age").alias("avg_age"),avg("BMI").alias("avg_bmi"),avg("FastingBloodSugar").alias("avg_fbs"),avg("HbA1c").alias("avg_hba1c"),avg("SystolicBP").alias("avg_systolic"),avg("DiastolicBP").alias("avg_diastolic"),sum(when(col("Diagnosis") == 1, 1).otherwise(0)).alias("diabetes_count"))# 计算各聚类的糖尿病发病率cluster_analysis = cluster_characteristics.withColumn("diabetes_rate",round((col("diabetes_count") / col("cluster_size") * 100), 2)).withColumn("avg_age", round(col("avg_age"), 1)).withColumn("avg_bmi", round(col("avg_bmi"), 1)).withColumn("avg_fbs", round(col("avg_fbs"), 1)).withColumn("avg_hba1c", round(col("avg_hba1c"), 2))# 根据发病率对聚类进行风险等级划分risk_classified_clusters = cluster_analysis.withColumn("risk_level",when(col("diabetes_rate") > 30, "极高风险群体").when(col("diabetes_rate") > 20, "高风险群体").when(col("diabetes_rate") > 10, "中风险群体").otherwise("低风险群体"))# 按风险等级排序final_clustering_result = risk_classified_clusters.orderBy(desc("diabetes_rate"))# 构建聚类分析结果clustering_results = final_clustering_result.collect()risk_groups_analysis = []for cluster_info in clustering_results:group_profile = {"cluster_id": f"群体{cluster_info['cluster_id'] + 1}","population_size": cluster_info["cluster_size"],"diabetes_incidence": cluster_info["diabetes_rate"],"risk_classification": cluster_info["risk_level"],"demographic_profile": {"average_age": cluster_info["avg_age"],"average_bmi": cluster_info["avg_bmi"],"average_fasting_glucose": cluster_info["avg_fbs"],"average_hba1c": cluster_info["avg_hba1c"],"average_systolic_bp": round(cluster_info["avg_systolic"], 1),"average_diastolic_bp": round(cluster_info["avg_diastolic"], 1)},"diabetes_cases": cluster_info["diabetes_count"],"intervention_priority": "紧急干预" if cluster_info["diabetes_rate"] > 25 else "重点关注" if cluster_info["diabetes_rate"] > 15 else "预防指导"}risk_groups_analysis.append(group_profile)# 返回完整的聚类分析结果return {"clustering_quality": round(silhouette_score, 4),"total_samples": sum([group["population_size"] for group in risk_groups_analysis]),"risk_groups": risk_groups_analysis,"analysis_summary": f"成功识别出{len(risk_groups_analysis)}个不同风险特征的人群聚类"}

六、项目文档展示

在这里插入图片描述

七、总结

本研究基于Spark大数据技术构建了综合性的糖尿病健康数据分析系统，通过整合患者基础特征、生理指标、生活方式等多维度数据，实现了对糖尿病发病规律的深度挖掘和智能分析。系统运用Hadoop分布式存储架构处理海量医疗数据，结合Spark内存计算优势，显著提升了数据处理效率和分析准确性。在技术实现方面，采用Python作为主要开发语言，Django框架构建后端服务，Vue框架打造用户界面，Echarts实现数据可视化，形成了完整的技术解决方案。

系统核心功能涵盖年龄段发病率分析、BMI与糖尿病关联研究、高风险人群聚类识别等七大模块，能够从不同角度揭示糖尿病的发病机制和风险因素。通过对27个关键指标的综合分析，系统可以准确识别糖尿病高危人群，为医疗机构提供精准的预警信息和干预建议。实际应用表明，该系统不仅提升了糖尿病筛查的效率和准确性，还为制定个性化治疗方案和公共卫生政策提供了科学依据。这一研究成果为慢性疾病的大数据分析提供了新的思路和方法，具有重要的理论价值和广阔的应用前景，推动了智慧医疗和精准医学的发展进程。