当前位置: 首页 > news >正文

Hoeffding不等式剪枝方法

    在基于物品的协通过滤算法中,当用户历史行为数据有很多时,对计算会有很大挑战,对此可以使用剪枝对数据进行化简来达到减少计算量。
    不是每个物品对都需要进行增量计算。对于两个物品的相似度,每次更新都能够得到一个新的相似度,这个新的相似度可以看做是一个随机变量,那么这个随机变量就有一个期望值。一旦物品之间的相似度可以以较高的置信度确认,它已经在期望值附近小幅度波动,就没必要再去更新了。如果进一步确定是一个比较小的相似度,甚至可以之间去掉这个物品对,其相似度不再参与计算更新。
对于确定这个物品什么时候不用再更新就可以用到Hoeffding不等式。Hoeffding不等式又称为霍夫丁不等式。该不等式给出了随机变量的和与其期望值偏差的概率上限
x^=1n(x1+....+xn)\hat{x}= \frac{1}{n}(x_1+....+x_n) x^=n1(x1+....+xn)
p(x^−E[x^≥ϵ])≤e−2nϵ2p(\hat{x}-E[\hat{x}\geq\epsilon])\leq e^{-2n\epsilon^2} p(x^E[x^ϵ])e2nϵ2
    不等式中x^\hat{x}x^是随机变量X的n个样本的均值,E[x^]E[\hat{x}]E[x^]是随机变量X的期望值。Hoeffding不等式反应的是:随机变量的真实期望值不会超过x^+ϵ\hat{x}+\epsilonx^+ϵ的概率是1−δ1-\delta1δ,其中ϵ\epsilonϵ就是与真实相似度的误差,ϵ\epsilonϵδ\deltaδ及n之间的关系是:
ϵ=ln(1δ)2n\epsilon = \sqrt{\frac{ln(\frac{1}{\delta})}{2n}} ϵ=2nln(δ1)
    Hoeffding不等式适用于有界的随机变量。x^\hat{x}x^在实时推荐系统中就是历次更新得到的相似度平均值,公式中的n是相似度的更新次数。这样一来,选定了δ\deltaδϵ\epsilonϵ之后就可以知道多少次后就能够逼近相似度期望值。假设δ=0.05\delta=0.05δ=0.05
    那么有

与真实相似度误差最少更新次数
0.1150
0.05600
0.0114979

    有了上面的表那么在一个物品对的更新次数已经达到最少更新次数时,且满足相似度误差时就可以不用再更新了。

参考:推荐系统: 关键模块 陈开江

http://www.lryc.cn/news/13134.html

相关文章:

  • 【算法】数组中的重复数字问题
  • 数值方法笔记2:解决非线性方程
  • 基于SpringBoot的在线文档管理系统
  • 软件体系结构(期末复习)
  • [vue3] pinia的基本使用
  • 进程和线程详解
  • 《刀锋》读书笔记
  • nginx中的ngx_modules
  • 设计模式之访问者模式
  • Go项目(三)
  • CTK学习:(一)编译CTK
  • 15种NLP数据增强方法总结与对比
  • Python每日一练(20230219)
  • vTESTstudio - VT System CAPL Functions - VT7001
  • 「可信计算」论文初步解读
  • CSDN 算法技能树 蓝桥杯-基础 刷题+思考总结
  • 信小程序点击按钮绘制定制转发分享图
  • Python自动化测试-使用Pandas来高效处理测试数据
  • 语音增强学习路线图Roadmap
  • nginx配置ssl实现https访问
  • JavaScript 语句
  • 将古老的ASP项目转换为PHP初探
  • 数据结构复习(七)模板类封装实现不带头结点的单链表
  • IDEA插件 RestfulTool插件——Restful服务开发辅助工具集
  • 2023年全国最新会计专业技术资格精选真题及答案1
  • Linux 配置RAID组
  • 【2021/推荐/社交网络】Socially-Aware Self-Supervised Tri-Training for Recommendation
  • Django搭建个人博客Blog-Day06
  • DQL 多表查询
  • BUUCTF Reverse xor