当前位置: 首页 > article >正文

常见机器学习算法简介:回归、分类与聚类

机器学习说到底,不就三件事:

  1. 预测一个数 —— 回归

  2. 判断归属哪个类 —— 分类

  3. 自动把数据分组 —— 聚类

别背术语,别管定义,先看问题怎么解决。


一、回归(Regression)

干嘛的?
模型输出一个连续数值。你丢个样本进去,它告诉你大概是多少。

应用场景:

  • 房价预测

  • 股票波动估计

  • 广告点击率预估

  • 医疗中的风险评分

代码风格示例:

from sklearn.linear_model import LinearRegressionmodel = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

注意点:

  • 特征别有太强的共线性(会影响权重估计)

  • 数据别有太多离群值(容易拉偏模型)

模型选择建议:

  • 数据线性关系明显 → 线性回归

  • 数据维度不大但噪音多 → 决策树回归

  • 数据量大 / 精度要求高 → XGBoost、LightGBM

  • 想搞深一点 / 多变量复杂依赖 → 神经网络回归(Keras / PyTorch)


二、分类(Classification)

干嘛的?
模型判断输入属于哪个“类”,就像做选择题一样,A、B、C三选一。

应用场景:

  • 是否信用违约(0/1)

  • 邮件是否垃圾

  • 图像识别(猫狗车人)

  • 医疗诊断分类

代码风格示例:

from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

注意点:

  • 类别不均衡要处理,比如加权或采样

  • 二分类别做One-Hot?不用,直接0/1即可

  • 多分类别需换 loss(如 softmax)

模型选择建议:

  • 简单快速:逻辑回归

  • 可解释性强:决策树 / RandomForest

  • 对精度要求高:XGBoost / CatBoost

  • 有深度需求:CNN / Transformer


三、聚类(Clustering)

干嘛的?
模型自己发现数据结构,把相似的放一堆,没标签也能干。

应用场景:

  • 用户分群

  • 异常检测(异常就是被分到边角落的那类)

  • 文本聚类(比如舆情分析)

代码风格示例:

from sklearn.cluster import KMeansmodel = KMeans(n_clusters=3)
model.fit(X)
labels = model.labels_

注意点:

  • 特征归一化很重要(不然按维度权重大错特错)

  • K 值别瞎定,用肘部法则或者 silhouette score 找

模型选择建议:

  • 快速尝试:KMeans(80%的场景够用)

  • 空间不规则:DBSCAN

  • 层级结构:Agglomerative Clustering


工程建议(务实路线)

任务类型模型建议
价格预测回归XGBoost / LGBM
风控审核分类Logistic / RF / XGB
用户打标签聚类KMeans / DBSCAN
图片识别分类CNN
文本相似度分类分类BERT / SVM


别学偏了:

学机器学习不是看你会几个模型,而是看你知道什么时候用哪个模型,用什么数据喂进去。


下一篇我接着写《模型评估指标怎么选?怎么解释?》,这一步你要是乱选,模型再准也白搭。

http://www.lryc.cn/news/2379561.html

相关文章:

  • SpringBoot项目里面发起http请求的几种方法
  • Linux下Nginx源码安装步骤详解
  • SQLMesh 增量模型从入门到精通:5步实现高效数据处理
  • Zookeeper 入门(二)
  • 【架构篇】安全架构-双向认证
  • 负载均衡—会话保持技术详解
  • Flask快速入门和问答项目源码
  • go语法大赏
  • 软件工程各种图总结
  • R-tree详解
  • AAAI2024 | 基于特征多样性对抗扰动攻击 Transformer 模型
  • 关于数据湖和数据仓的一些概念
  • 鸿蒙OSUniApp制作自定义的下拉菜单组件(鸿蒙系统适配版)#三方框架 #Uniapp
  • C++面试2——C与C++的关系
  • 常用的Java工具库
  • 基于LabVIEW的双音多频系统设计
  • R S的EMI接收机面板
  • [ctfshow web入门] web122
  • Nginx+Lua 实战避坑:从模块加载失败到版本冲突的深度剖析
  • LangChain框架-Chain 链详解
  • Java虚拟机 - JVM与Java体系结构
  • elementUI调整滚动条高度后与固定列冲突问题解决
  • 基于 nvitop+Prometheus+Grafana 的物理资源与 VLLM 引擎服务监控方案
  • 互联网大厂Java求职面试:Spring AI与大模型交互在短视频平台中的应用
  • 【Lua】java 调用redis执行 lua脚本
  • 【工奥阀门科技有限公司】签约智橙PLM
  • 灌区量测水自动化监测解决方案
  • SpringBoot整合MQTT实战:基于EMQX构建高可靠物联网通信,从零到一实现设备云端双向对话
  • AI与机器学习深度集成:从设备端能力爆发到开发工具智能化
  • 界面控件DevExpress WinForms v24.2 - 数据处理功能增强