【机器学习四大核心任务类型详解】分类、回归、聚类、降维都是什么?
目录
一、分类任务(Classification)
1.1 定义
1.2 分类的两种形式
1. 二分类(Binary Classification)
2. 多分类(Multi-class Classification)
二、回归任务(Regression)
2.1 定义
2.2 举例
2.3 常用算法:
三、聚类任务(Clustering)
3.1 定义
3.2 举例
3.3 常用算法:
四、降维任务(Dimensionality Reduction)
4.1 定义
4.2 举例
4.3 常用方法:
🧭 小结:任务类型速查表
五、写在最后:怎么知道用哪种任务?
📚 推荐阅读与学习路径:
作者:一叶轻舟 | AI应用开发者 & 技术博主
🗓️ 发布时间:2025年6月22日
在进入机器学习领域后,你很快会遇到各种“任务类型”这样的说法,比如分类任务、回归任务、聚类任务、降维任务……
刚开始接触时是不是有点懵?这些任务到底有什么区别?怎么判断一个问题该用哪种方法来解决?
今天这篇文章,我们就来系统梳理机器学习中的几大典型任务类型,每种任务我都会配上简单易懂的例子,让你一看就明白!
一、分类任务(Classification)
1.1 定义
分类是指:根据样本的特征,把它分配到一个具体的类别中。
常用于判断事物属于哪个“标签”或“种类”。
🧪 举例:
判断一封邮件是不是垃圾邮件
判断一个评论是正面还是负面(情感分析)
判断一张图片是猫还是狗
1.2 分类的两种形式
1. 二分类(Binary Classification)
只有两个选项,正例 or 负例。
📌 示例:
-
肿瘤是良性 or 恶性
-
用户是否会流失(是 or 否)
常见算法:逻辑回归、支持向量机(SVM)、XGBoost(二分类模式)
2. 多分类(Multi-class Classification)
超过两个类别,每个样本只属于其中之一。
📌 示例:
-
一张图片是猫、狗、马,三选一
-
新闻属于“体育”、“财经”还是“娱乐”?
常见算法:Softmax 回归、随机森林、深度神经网络(DNN)
二、回归任务(Regression)
2.1 定义
回归是指:根据已有数据,预测一个连续的数值结果。
📌 简单说:分类预测的是“属于哪一类”,回归预测的是“具体的数值”。
2.2 举例
-
房价预测(100万 or 120万)
-
股价趋势分析(明天涨0.5元还是跌0.2元)
-
用户评分预测(4.7星)
2.3 常用算法:
-
线性回归(Linear Regression)
-
决策树回归(Decision Tree Regressor)
-
XGBoost / LightGBM 回归模式
-
神经网络(用于复杂非线性问题)
🧠 技术理解:回归的目标是拟合一个函数关系,通常衡量预测与真实之间的“误差”(MSE、MAE等)。
三、聚类任务(Clustering)
3.1 定义
聚类属于无监督学习,它不需要标签数据,模型会自动将样本根据相似性划分为不同组别(簇)。
📌 聚类的目标是:“谁和谁像,就分成一组”。
3.2 举例
-
电商用户行为聚类(高消费 / 潜力用户 / 活跃型)
-
图像分割
-
异常检测(某一组和其他组差异特别大)
3.3 常用算法:
-
K-Means
-
DBSCAN(基于密度的聚类)
-
高斯混合模型(GMM)
四、降维任务(Dimensionality Reduction)
4.1 定义
降维的目标是:减少特征的数量(维度),让模型更轻更快,同时尽可能保留有用信息。
你可以理解为:“把一张高清大图压缩成小图,但不损失太多细节”。
4.2 举例
-
将100维的数据压缩成2维,方便可视化展示
-
降噪:过滤掉影响模型效果的“无用特征”
-
提前清洗数据,让训练效率提高
4.3 常用方法:
-
主成分分析(PCA)
-
t-SNE / UMAP(可视化友好)
-
AutoEncoder(自动编码器)
🧭 小结:任务类型速查表
任务类型 | 输入样本 | 输出结果 | 是否监督学习 | 常见应用 |
---|---|---|---|---|
分类 | 特征向量 | 离散标签 | ✔️ 是 | 图像识别、情感分析、垃圾邮件检测 |
回归 | 特征向量 | 连续数值 | ✔️ 是 | 房价预测、销售额预测、温度预报 |
聚类 | 特征向量 | 类别标签(自动分) | ❌ 否 | 用户分群、异常检测、图像分割 |
降维 | 高维特征 | 低维特征表示 | ❌ 否(或半监督) | 数据预处理、可视化、特征压缩 |
五、写在最后:怎么知道用哪种任务?
判断一个问题属于哪个任务类型,其实就看:
你想让模型“输出”什么结果?
-
想让它判断属于哪个类别?👉 分类
-
想让它预测一个数值?👉 回归
-
没有标签,想让它自动找结构?👉 聚类
-
特征太多,想降噪/提高效率?👉 降维
📚 推荐阅读与学习路径
-
周志华《机器学习》(理论基础)
-
吴恩达机器学习课程(Coursera 免费版)
-
数据集推荐:Titanic(二分类)、Housing(回归)、MNIST(多分类)