当前位置: 首页 > news >正文

ccc-Classification-李宏毅(4)

文章目录

        • Classification 概念
        • Example Application
          • How to do Classification
          • Why not Regesssion
          • Probability from Class - Feature
          • Probability from Class
          • How’s the results?
          • Modifying Model
          • Three Steps
        • Probability Distribution

Classification 概念

本质是找一个函数,输入对象X后输出其所属类别Class,实际应用如下:
在这里插入图片描述

Example Application

以神奇宝贝属性分类(Water/79 和 Normal/61)进行推进,function中input数据来源如下:
在这里插入图片描述

How to do Classification

数据通过函数中计算后返回判断类别结果,loss函数返回训练集汇总出现的错误,然后选择最优模型
idea图如下(二分类):
在这里插入图片描述

Why not Regesssion

在这里插入图片描述
存在的问题:

  • 回归用一条线,但问题是非常正确的样本将分界线过度纠正导致效果不好
  • Regression返回的是连续值,classification返回离散的点,性质不同
Probability from Class - Feature

只考虑Defense和SP Defence这两种feature,并认为样本点符合高斯分布(正态分布)注意海龟不在训练集中
在这里插入图片描述
高斯分布的简单介绍

公式如下:
fμ,Σ(x)=1(2π)D/21∣Σ∣1/2exp{−12(x−μ)TΣ−1(x−μ)}f_{\mu,\Sigma}(x)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\}fμ,Σ(x)=(2π)D/21∣Σ1/21exp{21(xμ)TΣ1(xμ)}
其中,μ\muμ表示均值,Σ\SigmaΣ表示协方差(covariance),它们对于分布的影响如下:

  • 不同的μ\muμ相同的Σ\SigmaΣ概率分布最高点不同
  • 相同μ\muμ不同的Σ\SigmaΣ,概率最高点相同,分散程度不同
    在这里插入图片描述
Probability from Class

将海龟的数据代入由之前的79个资料形成的高斯分布中就可以估测它所属类别的概率。通过极大似然函数寻找这个高斯分布:

在这里插入图片描述
分别计算两种类别最佳高斯分布参数:
在这里插入图片描述
将这些得到的数据进行代入分类公式(设定阈值0.5):
在这里插入图片描述

How’s the results?

在这里插入图片描述
左图是训练集右图是测试集,结果47% accuracy,效果非常差。即使使用所有的6种数据集accuracy也仅仅54%。

Modifying Model

考虑可能是参数过多导致过拟合,比较好的解决方式是公用一个covariance matrix,因为它在样本数量较多时增长非常迅速(与feature size的平方成正比)然后造成过拟合,使用相同协方差过程如下:
在这里插入图片描述
在这里插入图片描述
效果得到了显著提升,并且边界变成了线性的。为什么?鬼知道!

Three Steps

在这里插入图片描述

Probability Distribution

在这里插入图片描述
sigmoid function:
在这里插入图片描述在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
上面推导解释为何分类的边界线变成了线性的

http://www.lryc.cn/news/2948.html

相关文章:

  • Kubernetes + Docker 部署一个yolov5检测服务(基于FastDeploy)
  • 【C++/QT】QT5.6解析Excel教程(qtxlsx)
  • C++之智能指针
  • Redis实战-session共享之修改登录拦截器
  • 数据可视化,流程化处理pycharts-
  • 1626_MIT 6.828 lab1课程大纲学习过程整理
  • 12月无情被辞:想给还不会自动化测试的技术人提个醒
  • 开发必备技术--docker(使用篇)
  • 2023备战金三银四,Python自动化软件测试面试宝典合集(三)
  • TortoiseGit 使用教程
  • Linux项目自动化构建工具make/Makefile
  • M100嵌入式自动吞吐式读写器|电动读卡机如何通过C#程序读取社保卡号
  • STM32----搭建Arduino开发环境
  • 华为OD机试 - 事件推送(Python),真机试题
  • 论如何获取CSDN原力
  • 流程引擎之发展史及对比总结
  • 【DSView逻辑分析抓取波形CAN步骤-硬件连接-数据解析-底层波形认识CAN-工具使用】
  • C++中的模板
  • Maven_第四章 使用Maven:IDEA环境
  • RocketMQ基础学习
  • I.MX6ULL内核开发4:设备号的组成与哈希表
  • 【博学谷学习记录】大数据课程-学习第六周总结
  • Cordova
  • 9.语义HTMLVScode扩展推荐
  • 一款非常不错的微信系统垃圾清理工具:微信清理大师,操作简单,清除较快。
  • PMP考前冲刺2.11 | 2023新征程,一举拿证
  • yalc(比 yarn/npm link 更加友好的前端依赖库 link 方案)
  • Github | 个人资料自述文件配置的不完全总结
  • 2022年12月电子学会Python等级考试试卷(二级)答案解析
  • SpringCloud第二讲 Ribbon负载均衡源码分析