当前位置: 首页 > news >正文

【推荐算法】推荐系统的评估

这篇文章是笔者阅读《深度学习推荐系统》第五章推荐系统的评估的学习笔记,在原文的基础上增加了自己的理解以及内容的补充,在未来的日子里会不断完善这篇文章的相关工作。

文章目录

    • 离线评估
      • 划分数据集方法
      • 客观评价指标
        • P-R曲线
        • ROC/AUC
        • mAP
        • NDCG
    • A/B 测试
      • 分桶原则
      • 评估指标
      • 存在的问题
    • Interleaving
      • 缺点
      • 灵敏度对比

离线评估

在离线环境中利用已有的数据划分训练集和测试集对模型进行评估

划分数据集方法

机器学习常用划分方法:Holdout法、交叉验证、留一法、自助法

客观评价指标

机器学习模型常用指标:准确率、精确率、召回率、均方根误差、对数损失

​ 对于推荐模型,点击率的预测(预测模型)正确与否并不是最终目标,最重要的是输出一个用户感兴趣的物品列表(排序模型),排序模型是根据模型的输出概率对兴趣物品排序,因此应该采用适合评估排序序列的指标来评估模型。

P-R曲线
  • why work(能够更关注正样本的分数)

P-R曲线是精确率-查全率曲线,精确率和查全率两个指标都是关于正样本的相关计算,当阈值设置高时,查全率低,此时得分越高的物品被优先推荐,而不是简单的实现二分类,因此,P-R曲线更适合排序模型。

  • 参考学习链接:
ROC/AUC
  • why work

因为AUC描述的物理意义是在样本中随机抽取一个正样本和负样本,正样本的得分大于负样本得分的概率,反映了模型区分正负样本的能力,通过ROC的绘制避免了单一阈值达赖的偏差,此外,AUC对正负样本的比例不敏感(因为是随机各抽一个)

  • 参考学习链接:【评价指标】ROC曲线与AUC-CSDN博客
mAP
NDCG

[!NOTE]

编者提到了在真正的离线实验中并不需要选择过多的评价指标,更重要的是快速定位,排除不可行的思路。

A/B 测试

又称为“分桶测试”、“分流测试”,设置单一变量,通过实验组A与对照组B进行对比评估,是模型上线前的最后一道测试,与离线测试不同,离线测试无法消除有偏数据的影响,并且无法还原实际工程环境(数据丢失、网络延迟)

分桶原则

  • 层与层之间正交:层与层之间的对照实验时独立的,不相互影响;

  • 同层之间互斥:同一个数据用于不同的实验组;

image

评估指标

与离线测试不同,线上测试能够直接计算业务的核心指标,因此更注重对点击率、转化率等实际业务之表的对比。

存在的问题

  1. A/B测试占用了过多的资源,当新提出的模型推荐效果差时还会对用户造成损害;
  2. 分组用户样本分布不平衡

Interleaving

Interleaving是一种快速线上评估方法,在大量初始算法中筛选出work的算法再进行A/B测试,解决A/B测试在测试时样本可能分布不平衡的问题,对相同用户给与两种方案,看用户更喜欢哪种(类似于chatgpt有时会给两种方案看用户更喜欢哪种)

image

缺点

  1. 需要大量的辅助性数据标识;
  2. 只能对算法的相对评估;

灵敏度对比

需要多少样本才可以评估不同算法的优劣性,图中可以看出, Interleaving 方法利用 1 0 3 10^3 103个样本就能判定算法 A是否比 B 好,而 A/B 测试则需要 1 0 5 10^5 105个样本才能将 p-value 降到 5%以下。这就意味着利用一组 A/B 测试的资源,可以做 100 组 Interleaving 实验,这无疑极大地加强了线上测试的能力。

image

http://www.lryc.cn/news/498943.html

相关文章:

  • 鸿蒙:实现类似Android.9图的图片资源呈现
  • ros2人脸检测
  • Pillow:强大的Python图像处理库
  • 微信小程序uni-app+vue3实现局部上下拉刷新和scroll-view动态高度计算
  • 为什么类 UNIX 操作系统通常内置编译器?为什么 Windows 更倾向于直接使用二进制文件?
  • 吉林大学23级数据结构上机实验(第7周)
  • 实验13 使用预训练resnet18实现CIFAR-10分类
  • 【开发文档】资源汇总,持续更新中......
  • 【k8s实践】 创建第一个Pod(Nginx)
  • 盘古大模型实战
  • Python subprocess.run 使用注意事项,避免出现list index out of range
  • 包管理器npm,cnpm,yarn和pnpm
  • 树莓派4B使用opencv读取摄像头配置指南
  • Spring Boot 进阶话题:部署
  • Python 3 和 MongoDB 的集成使用
  • perl语言中模式匹配的左右关系
  • 【漏洞复现】网动统一通信平台(ActiveUC)接口iactiveEnterMeeting存在信息泄露漏洞
  • C++ STL 容器系列(三)list —— 编程世界的万能胶,数据结构中的百变精灵
  • Java经典面试题总结(附答案)2025
  • Stylus 浏览器扩展开发-Cursor AI辅助
  • DAY35|动态规划Part03|LeetCode:01背包问题 二维、01背包问题 一维、416. 分割等和子集
  • 创建空向量:std::vector<int> v,刚创建时大小为0
  • VBA基础2
  • 计算机网络-GRE基础实验二
  • JSON 使用
  • Leetcode—1539. 第 k 个缺失的正整数【简单】
  • 深入浅出:PHP 控制结构与循环语句
  • 深入解析 Loss 减少方式:mean和sum的区别及其在大语言模型中的应用 (中英双语)
  • c++ auto
  • python中的列表、元组、字典的介绍与使用