当前位置: 首页 > news >正文

【查漏补缺】机器学习典型算法

文章目录

        • 1. 监督学习
        • 2. 半监督学习
        • 3. 非监督学习

1. 监督学习
  • 线性回归(Linear Regression)
    • 损失函数:最小二乘法(均方误差)
  • 逻辑回归(Logistic Regression)
    • 二分类问题
    • 算法公式:P(x)=sigmod(XW)=11+e−(w1x1+w2x2+...wkxk+1)P(x) = sigmod(XW) = \frac{1}{1+e^{-(w_1x_1+w_2x_2+...w_kx_k+1)}}P(x)=sigmod(XW)=1+e(w1x1+w2x2+...wkxk+1)1
    • 损失函数:交叉熵(最大似然)Pright(x)=py∗(1−p)1−y=>∏i=1mpiyi∗(1−pi)1−yiP_{right}(x) = p^y*(1-p)^{1-y} => \prod_{i=1}^m{p_i^{y_i}*(1-p_i)^{1-y_i}}Pright(x)=py(1p)1y=>i=1mpiyi(1pi)1yi
  • 决策树(Decision Tree)
  • 随机森林(Random Forest)
    • 自助采样 -> 特征随机选择 -> 构建多棵决策树 -> 集成预测结果
  • 最近邻算法(k-NN)
    • 惰性学习算法(直接用训练数据进行预测)
    • 三个基本要素:距离度量(欧式距离,曼哈顿距离),K值的选择(选一个较小的值开始,分割样本交叉验证),分类决策规则
  • 朴素贝叶斯(Naive Bayes)
    • 分类原理(贝叶斯定理):P(类别∣特征)=P(类别)P(特征∣类别)P(特征)P(类别|特征)=\frac{P(类别)P(特征|类别)}{P(特征)}P(类别特征)=P(特征)P(类别)P(特征类别)
    • 标准公式:P(Y=Ck∣X=x)=P(Y=Ck)P(X=x∣Y=Ck)∑j=1n[P(Y=Cj)P(X=x∣Y=Cj)]P(Y=C_k|X=x)=\frac{P(Y=C_k)P(X=x|Y=C_k)}{\sum_{j=1}^n [P(Y=C_j)P(X=x|Y=C_j)]}P(Y=CkX=x)=j=1n[P(Y=Cj)P(X=xY=Cj)]P(Y=Ck)P(X=xY=Ck),分母是基于特征条件独立推导的
    • 引入特征独立性假设:
      P(X=x∣Y=Ck)=P(X(1)=x(1),...,X(n)=x(n)∣Y=Ck)=∏j=1nP(X(i)=x(i)∣Y=Ck)P(X=x|Y=C_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=C_k)\\ =\prod_{j=1}^n P(X^{(i)}=x^{(i)}|Y=C_k)P(X=xY=Ck)=P(X(1)=x(1),...,X(n)=x(n)Y=Ck)=j=1nP(X(i)=x(i)Y=Ck)
    • 代入公式:
      P(Y=Ck∣X=x)=P(Y=Ck)∏i=1nP(X(i)=x(i)∣Y=Ck)∑j=1n[P(Y=Cj)P(X=x∣Y=Cj)]P(Y=C_k|X=x)=\frac{P(Y=C_k)\prod_{i=1}^n P(X^{(i)}=x^{(i)}|Y=C_k)}{\sum_{j=1}^n [P(Y=C_j)P(X=x|Y=C_j)]}P(Y=CkX=x)=j=1n[P(Y=Cj)P(X=xY=Cj)]P(Y=Ck)i=1nP(X(i)=x(i)Y=Ck)
  • 支持向量机(SVM)
    • 二分类
    • 超平面,使所有样本的距离间隔最小值最大
    • 核函数:非线性可分 -> 特征空间升维
2. 半监督学习
算法类型代表算法适用场景优势
基于图的方法标签传播
(Label Propagation, LP)
社交网络、推荐系统直观,适合关系数据
生成模型高斯混合模型(GMM)+ EM,变分自编码器(VAE)文本、图像聚类概率解释性强
低密度分离半监督支持向量机(S3VM)医疗、异常检测边界清晰,抗噪声
一致性正则化Mean Teacher, FixMatch图像、语音适合深度学习,鲁棒性强
伪标签自训练(Self-Training), Noisy Student语音识别、NLP简单易实现
对比学习SimCLR多模态数据(图像+文本)无需负样本,高效表征学习
3. 非监督学习
  • K-means 聚类(K-means Clustering)
    • 重要概念:簇,质心(每次动态调整,文本距离的均值)
    • 初始化 K 的大小:误差平方和 SSE + 手肘法
    • 分类目标:簇内差异小(相似),簇间差异大(不相似)
  • 层次聚类(Hierarchical Clustering)
    • 自顶向下,自底向上
  • 主成分分析(PCA)
    • 降维
    • 方法 :特征矩阵 旋转变换
  • 自编码器(Auto-Encoders)
    • 降维、特征提取
    • 包含 Encoder (对原始样本进行编码) 和 Decoder (对经过编码后的向量,进行解码,从而还原原始样本)
    • 文本检索
      • 词袋模型 BOW,基于词频,丢失词序、语义、共现关系等高维信息
      • 词嵌入模型:word2vec、GloVe、fastText,词向量固定不变,没有结合上下文信息,无法处理一词多义
      • Auto-Encoder:BERT
    • 图像检索:CNN
  • 孤立森林(Isolation Forest)
    • 异常检测算法
    • 通过构建多棵 孤立树(iTree)成森林,再基于样本在森林中的表现判断异常
http://www.lryc.cn/news/602132.html

相关文章:

  • 【Java Web实战】从零到一打造企业级网上购书网站系统 | 完整开发实录(终)
  • 应用加速游戏盾的安全作用
  • Java BigDecimal详解:小数精确计算、使用方法与常见问题解决方案
  • 【数据库】使用Sql Server将分组后指定字段的行数据转为一个字段显示,并且以逗号隔开每个值,收藏不迷路
  • GaussDB 开发基本规范
  • 22 BTLO 蓝队靶场 Countdown 解题记录
  • 如何利用机器学习分析筛选生物标记物
  • 微信小程序——早餐小程序
  • TMS320F28335PGFA TI德州仪器:32位浮点内核+CLA协处理器DSP,工业控制性能极限!
  • 【Linux指南】Linux粘滞位详解:解决共享目录文件删除安全隐患
  • CJ02、CJ20N下达项目报错用户状态 初始 是活动的,怎么解决?
  • 模型压缩的一些整理
  • 异步通讯组件MQ
  • 【Linux系统】Ext2文件系统 | 软硬链接
  • 医疗人工智能高质量数据集和语料库建设路径探析
  • HOT100——链表篇Leetcode206. 反转链表
  • qt 心跳包
  • Java面试宝典:Spring Boot
  • 解决MySQL 1055错误:ONLY_FULL_GROUP_BY问题详解(MySQL 8.0版)
  • Java项目接口权限校验的灵活实现
  • Datawhale AI夏令营 task2 笔记问题汇总收集
  • Python 实现服务器自动故障处理工具:从监控到自愈的完整方案
  • PCS液相色谱柱:专为碱性化合物设计的高性能色谱柱
  • Python 异常 (Exception) 深度解析
  • 项目进度如何控制
  • 新手向:破解VMware迁移难题
  • 元宇宙经济与数字经济的异同:虚实交织下的经济范式对比
  • 【实时Linux实战系列】在实时应用中进行负载均衡
  • PyTorch武侠演义 第二卷:高塔中的注意力秘境 第1章:残卷指引
  • 安宝特案例丨AR+AI赋能轨道交通制造:破解人工装配难题的创新实践