当前位置: 首页 > news >正文

乳腺癌诊断分析——基于聚类分析实现

一、研究背景

乳腺癌属于恶性肿瘤,在早期发现后需要及早将病变组织切除,而且术后还要化疗和放射等辅助治疗,能够抑制癌细胞的扩散和增长。

二、研究目的

  1. 研究乳腺癌病人的患病特征
  2. 通过聚类分析方法对特征进行分类
  3. 通过上述聚类结果对乳腺诊断给出建议

三、数据来源

机器学习(sklearn)库中美国威斯康星州乳腺癌的数据集,包含乳腺癌患者的肿瘤特征的测量值。 

breast_cancer — scikit-learnicon-default.png?t=O83Ahttps://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html

四、实验仪器

Windows 11,SPSS,PyCharm Professional,R,Jupyter Notebook

五、数据集介绍

 

5.1 数据来源

本实验数据来自机器学习中美国威斯康星州乳腺癌数据集,包含569个患有乳腺癌的人群。 

5.2 选择的病理特征

  1. 平均半径
  2. 平均纹理
  3. 平均周长
  4. 平均面积
  5. 平均平滑度
  6. 平均紧凑度
  7. 平均凹度
  8. 平均对称性
  9. 平均分形 

六、系统聚类法

6.1 近似值矩阵

 本实验使用SPSS进行操作,本文在计算距离时采用平方欧式距离,所以样品间距离越大,样品差异越大。而在计算类与类之间的距离时,本文采用的是最短距离法,在SPSS中对应为最近邻元素。如下表所示,平均周长与平均半径间距离最小,最先聚为一类。

6.2  集中趋势

 上表为SPSS输出聚类系数表,接下来使用Python进行绘图得到下面的折线图。

6.3 聚合系数与谱系图

由图1得出,当分类数大于4时,曲线的变化趋于平稳,为此分类数等于4符合分类目的。最后使用SPSS 绘制出了系统聚类的谱系图,如图2所示。

 

 通过谱系图得出四类的特征分别为:

  1. 第一类为平均半径,平均周长,平均面积,平均凹度,平均对称性,平均紧凑度,刻画了乳腺的表面特征,通过表面特征地识别出乳腺癌的患病前兆;
  2. 第二类为平均平滑度,识别诊断出乳腺癌;
  3. 第三类为平均分形,刻画了乳腺的内在因素对乳腺癌的患病前兆的识别;
  4. 第四类为平均纹理,刻画乳腺的纹理形状对乳腺癌诊断识别的重要性。

七、总结与建议

7.1 总结 

  1. 通过聚类结果,我们总结发现乳腺癌的四类病理特征: 平均半径,平均周长,平均面积,平均凹度,平均对称性;平均紧凑度; 平均平滑度; 平均分形; 平均纹理;
  2. 通过对病人的上述四类病理特征进行检测,则可以帮助初步判断乳腺癌;
  3. 在数据较少或者缺失的时候可以从这四类的特征初步判断其乳腺癌的风险。

7.2 建议

1、建立良好的生活方式,调整好生活节奏,保持心情舒畅。

2、坚持体育锻炼,积极参加社交活动,避免和减少精神、心理紧张因素,保持心态平和。

3、养成良好的饮食习惯。

  • 婴幼儿时期注意营养均衡,提倡母乳喂养。
  • 儿童发育期减少摄入过量的高蛋白和低纤维饮食。
  • 青春期不要大量摄入脂肪和动物蛋白,加强身体锻炼。
  • 绝经后控制总热量的摄入,避免肥胖。
  • 平时养成不过量摄入肉类、煎蛋、黄油、奶酪、甜食等饮食习惯,少食腌、熏、炸、烤食品,增加食用新鲜蔬菜、水果、维生素、胡萝卜素、橄榄油、鱼、豆类制品等。

4、积极治疗乳腺疾病。

5、不乱用外源性雌激素。

6、不长期过量饮酒。

http://www.lryc.cn/news/483532.html

相关文章:

  • Ubuntu 22.04 安装配置opencv
  • 【软考】系统架构设计师-计算机系统基础(3):嵌入式系统
  • 实测运行容器化Tomcat服务器
  • 致敬苹果的国产手机,只会失去更多市场,iPhone一骑绝尘!
  • 《MYSQL45讲》kill不掉的线程
  • 单体架构 IM 系统之 Server 节点状态化分析
  • java xml 文本解析
  • Docker占用空间太大磁盘空间不足清理妙招
  • 编程之路,从0开始:字符函数和字符串函数
  • 化工防爆巡检机器人:在挑战中成长,为化工安全保驾护航
  • 音频采样数据格式
  • 【pytorch】常用强化学习算法实现(持续更新)
  • DAY59||并查集理论基础 |寻找存在的路径
  • Mybatis执行自定义SQL并使用PageHelper进行分页
  • OpenCV DNN
  • 什么时候需要复写hashcode()和compartTo方法
  • PostgreSQL 日志文件备份
  • 2023年MathorCup数学建模B题城市轨道交通列车时刻表优化问题解题全过程文档加程序
  • 数字农业产业链整体建设方案
  • awk那些事儿:在awk中使用shell变量的两种方式
  • 大数据面试题--kafka夺命连环问(后10问)
  • 智能量化交易的多样化策略与风险控制:中阳模型的应用与发展
  • 小皮PHP连接数据库提示could not find driver
  • 2024.11.13(一维数组相关)
  • 豆包MarsCode算法题:数组元素之和最小化
  • Hbase Shell
  • 激活函数解析:神经网络背后的“驱动力”
  • 【开源免费】基于SpringBoot+Vue.JS水果购物网站(JAVA毕业设计)
  • 推荐一款多物理场模拟仿真软件:STAR-CCM+
  • React Hooks在现代前端开发中的应用