当前位置: 首页 > news >正文

机器学习中常用的评价指标

一、分类任务常用指标

1. 准确率(Accuracy)
  • 定义:正确预测样本数占总样本数的比例。
  • 优点:直观易懂,适用于类别平衡的数据。
  • 缺点:对类别不平衡数据敏感(如欺诈检测中99%的负样本)。
  • 应用场景:类别分布均匀的简单分类任务(如手写数字识别)。
2. 精确率(Precision)与召回率(Recall)
  • 定义
    • 精确率 = TP / (TP + FP)(预测为正的样本中实际为正的比例)。
    • 召回率 = TP / (TP + FN)(实际为正的样本中被正确预测的比例)。
  • 优点
    • 精确率关注减少假阳性(如垃圾邮件检测)。
    • 召回率关注减少假阴性(如癌症筛查)。
  • 缺点:二者通常存在权衡(Trade-off)。
  • 应用场景
    • 精确率:对误报敏感的任务(如推荐系统)。
    • 召回率:对漏检敏感的任务(如医疗诊断)。
3. F1 Score
  • 定义:精确率和召回率的调和平均(F1 = 2 * (Precision*Recall)/(Precision+Recall))。
  • 优点:综合平衡精确率和召回率,适用于类别不平衡数据。
  • 缺点:假设精确率和召回率同等重要,不适用于多分类的复杂场景。
  • 应用场景:需要平衡假阳性和假阴性的任务(如异常检测)。
4. ROC-AUC
  • 定义:ROC曲线下面积,反映模型在不同阈值下的分类性能。
  • 优点
    • 对类别不平衡不敏感。
    • 反映模型的整体排序能力。
  • 缺点:计算复杂度高,对类别均衡的简单任务可能不如F1直观。
  • 应用场景:需要全面评估分类性能的场景(如广告点击率预测)。

二、回归任务常用指标

1. 均方误差(MSE)
  • 定义:预测值与真实值差的平方的平均值。
  • 优点:对异常值敏感,惩罚大误差。
  • 缺点:量纲不直观(平方单位)。
  • 应用场景:需要强调大误差的任务(如房价预测)。
2. 平均绝对误差(MAE)
  • 定义:预测值与真实值绝对差的平均值。
  • 优点:量纲直观,对异常值鲁棒。
  • 缺点:无法反映误差方向。
  • 应用场景:需要稳健评估的任务(如库存需求预测)。
3. R²(决定系数)
  • 定义:模型解释的方差占数据总方差的比例。
  • 优点:无量纲,可横向比较不同模型。
  • 缺点:对过拟合敏感。
  • 应用场景:解释模型对数据的拟合程度(如科学实验建模)。

三、深度学习特定任务指标

1. IoU(交并比)
  • 定义:预测区域与真实区域交集面积占并集面积的比例。
  • 优点:直观衡量分割或检测的定位精度。
  • 缺点:对边界敏感,无法反映类别重要性。
  • 应用场景:图像分割、目标检测(如自动驾驶中的障碍物识别)。
2. BLEU(双语评估替补)
  • 定义:通过n-gram匹配评估机器翻译结果与参考译文的相似度。
  • 优点:快速计算,适用于大规模文本生成。
  • 缺点:忽略语义和语法结构,对短文本不敏感。
  • 应用场景:机器翻译、文本摘要。
3. 困惑度(Perplexity)
  • 定义:模型对测试数据概率分布的逆几何平均。
  • 优点:直接反映语言模型的预测能力。
  • 缺点:依赖训练数据分布,无法反映生成文本的多样性。
  • 应用场景:语言模型评估(如GPT系列模型)。

四、选型建议

  • 类别不平衡:优先选择F1、AUC、PR-AUC。
  • 异常值敏感:MAE优于MSE。
  • 多目标优化:结合多个指标(如目标检测中的mAP)。
  • 生成任务:BLEU、ROUGE、CIDEr结合人工评估。
http://www.lryc.cn/news/533582.html

相关文章:

  • Windows安装cwgo,一直安装的是linux平台的
  • GitHub Pages + Jekyll 博客搭建指南(静态网站)
  • 21.[前端开发]Day21-HTML5新增内容-CSS函数-BFC-媒体查询
  • C++SLT(五)——list
  • 网络安全ITP是什么 网络安全产品ips
  • 评估大模型(LLM)摘要生成能力:方法、挑战与策略
  • 《PYTHON语言程序设计》(2018版)1.20修改这道题,利用类的方式(二) 接近成功....(上)
  • USB子系统学习(四)使用libusb读取鼠标数据
  • 【产品小白】用户调研的需求是否都采纳?
  • 软件测试就业
  • qt部分核心机制
  • 【RocketMQ】RocketMq之ConsumeQueue深入研究
  • 如今物联网的快速发展对hmi的更新有哪些积极影响
  • linux 性能60秒分析
  • Redisson全面解析:从使用方法到工作原理的深度探索
  • neo4j-解决导入数据后出现:Database ‘xxxx‘ is unavailable. Run :sysinfo for more info.
  • 51单片机之引脚图(详解)
  • Hangfire.NET:.NET任务调度
  • 深入解析:React 事件处理的秘密与高效实践
  • 开源像素字体,可用于独立游戏开发
  • 【论文阅读】Comment on the Security of “VOSA“
  • 了解传输层TCP协议
  • flask实现用户名查重,重复的用户名阻止注册,以及如何优化
  • ASP.NET Core对JWT的封装
  • wordpressAI工具,已接入Deepseek 支持自动生成文章、生成图片、生成长尾关键词、前端AI窗口互动、批量采集等
  • Ollama部署 DeepSeek-R1:70B 模型的详细步骤
  • PAT乙级( 1009 说反话 1010 一元多项式求导)C语言版本超详细解析
  • 学习笔记十九:K8S生成pod过程
  • Qwen2-VL:增强视觉语言模型对世界任意分辨率的感知能力
  • 原神新版本角色牌上新 七圣召唤增添新玩法