当前位置: 首页 > news >正文

Polyak-Ruppert 平均

Polyak-Ruppert 平均的本质

Polyak-Ruppert 平均(简称 Polyak 平均)是一种专门针对随机逼近算法(如 SGD)设计的平均技术,由 Boris Polyak(1990)和 David Ruppert(1988)独立提出。它不仅仅是简单的算术平均,而是一种具有深刻统计优化意义的加权策略。


1. 与普通平均的关键区别

普通算术平均Polyak-Ruppert 平均
对所有样本平等加权:
βˉn=1n∑i=1nβi\bar{\beta}_n = \frac{1}{n} \sum_{i=1}^n \beta_iβˉn=n1i=1nβi
对迭代路径进行时间衰减加权
βˉn=1n∑i=1nβi\bar{\beta}_n = \frac{1}{n} \sum_{i=1}^n \beta_iβˉn=n1i=1nβi (形式相同,但内涵不同)
适用于 i.i.d. 数据专为相关随机序列(如 SGD 路径)设计
无优化目标显式降低随机梯度噪声的方差
统计性质依赖数据分布具有理论最优性证明(渐近最小方差)

🔍 核心洞察:Polyak 平均的“特殊之处”不在计算公式,而在其应用对象和理论保证——它针对的是 SGD 的迭代序列 {βi}\{\beta_i\}{βi},而非原始数据。


2. 为什么必须强调 “Polyak-Ruppert 平均”?

(1) 解决 SGD 的固有缺陷
  • SGD 的单个估计 βn\beta_nβn随机梯度噪声影响大(尤其早期迭代)。
  • Polyak 平均通过平滑整个优化路径,抑制噪声:
    Var(βˉn)≪Var(βn) \text{Var}(\bar{\beta}_n) \ll \text{Var}(\beta_n) Var(βˉn)Var(βn)
(2) 理论最优性证明

在 Polyak & Juditsky (1992) 的里程碑工作中,证明了:

  • 当步长 γi=γ0i−a\gamma_i = \gamma_0 i^{-a}γi=γ0iaa∈(0.5,1)a \in (0.5,1)a(0.5,1))时,
  • n(βˉn−β∗)\sqrt{n} (\bar{\beta}_n - \beta_*)n(βˉnβ) 的渐近分布达到 Cramér-Rao 下界(统计效率最优)。
(3) 加速收敛
  • 单个 βn\beta_nβn 的收敛速度:∥βn−β∗∥=Op(γn)\|\beta_n - \beta_*\| = O_p(\gamma_n)βnβ=Op(γn)
  • Polyak 平均的收敛速度:∥βˉn−β∗∥=Op(n−1/2)\|\bar{\beta}_n - \beta_*\| = O_p(n^{-1/2})βˉnβ=Op(n1/2)
    收敛速度提升一个数量级(尤其在强凸问题中)。

3. 在 SGMM 中的具体作用

在算法 (2e) 中:
βˉi=i−1iβˉi−1+1iβi \bar{\beta}_i = \frac{i-1}{i} \bar{\beta}_{i-1} + \frac{1}{i} \beta_i βˉi=ii1βˉi1+i1βi
本质是计算 βˉn=1n∑i=1nβi\bar{\beta}_n = \frac{1}{n} \sum_{i=1}^n \beta_iβˉn=n1i=1nβi,但其优越性来自:

  1. 路径依赖{βi}\{\beta_i\}{βi} 是 SGD 生成的相关序列(非 i.i.d.)。
  2. 方差缩减:早期 βi\beta_iβi 因步长大而波动剧烈,后期趋于稳定。平均操作等价于时间上的重要性采样
  3. 偏差-方差权衡:牺牲少量偏差(因早期 βi\beta_iβi 不精确),大幅降低方差。

4. 通用流数据场景的应用建议

推荐使用 Polyak 平均当:
  • 处理相关序列(如优化迭代、时间序列预测)
  • 目标是最小化渐近方差(而不仅是均值无偏)
  • 数据生成过程存在异方差性(如早期估计方差大)
典型应用场景:
  1. 在线优化(SGD, Adam, 等)
  2. 强化学习(Q-learning 策略平均)
  3. 贝叶斯滤波(粒子滤波的路径平均)
  4. 随机波动率模型(金融时间序列)
计算公式(通用形式):

θˉn=1n∑i=1nθi \bar{\theta}_n = \frac{1}{n} \sum_{i=1}^n \theta_i θˉn=n1i=1nθi
其中 {θi}\{\theta_i\}{θi} 是任何通过随机迭代生成的序列(如 SGD 参数、MCMC 样本)。


结论:为什么必须指名道姓?

  1. 理论信用:尊重 Polyak-Ruppert 的开创性工作。
  2. 语义精确:强调这不是普通平均,而是针对随机优化路径的方差缩减技术
  3. 性能承诺:暗示使用者该平均具有最优统计效率(而普通平均可能没有)。

总结:Polyak-Ruppert 平均是流数据处理的“精装修版”递归平均——它在普通平均的框架上,加装了理论最优性的引擎。当你的目标是高精度在线估计时,指名调用它就是获得统计效率保证的密钥。

http://www.lryc.cn/news/620594.html

相关文章:

  • 第四天~什么是ARXML?
  • Eureka故障处理大汇总
  • Java研学-RabbitMQ(八)
  • 李沐-第六章-LeNet训练中的pycharm jupyter-notebook Animator类的显示问题
  • 【LeetCode 热题 100】295. 数据流的中位数——最大堆和最小堆
  • 基于Django的福建省旅游数据分析与可视化系统【城市可换】
  • AI 编程实践:用 Trae 快速开发 HTML 贪吃蛇游戏
  • 【经验分享】如何在Vscode的Jupyter Notebook中设置默认显示行号
  • vscode的wsl环境,ESP32驱动0.96寸oled屏幕
  • 【面板数据】各省及市省级非物质文化遗产数据合集(2005-2024年)
  • 【JavaEE】多线程 -- 初识线程
  • Java应用快速部署Tomcat指南
  • **超融合架构中的发散创新:探索现代编程语言的挑战与机遇**一、引言随着数字化时代的快速发展,超融合架构已成为IT领域的一种重要趋势
  • ts概念讲解
  • 网络原理-HTTP
  • 一致性哈希Consistent Hashing
  • 【代码随想录day 20】 力扣 669. 修剪二叉搜索树
  • 力扣-64.最小路径和
  • 玩转Docker | 使用Docker部署JSON格式化工具ZJSON
  • iOS Sqlite3
  • 磁盘瓶颈现形记 - iostat让I/O压力无所遁形
  • 「iOS」————设计架构
  • iOS 26 一键登录失效:三大运营商 SDK 无法正常获取手机号
  • iOS性能监控新方法多版本对比与趋势分析实战指南
  • iOS混淆工具有哪些?游戏 App 防护下的混淆与加固全攻略
  • 网络通信---Axios
  • iOS App TestFlight 上架全流程案例,从 0 到 1 完成内测分发
  • Docker 部署:Web SSH、RDP、VNC 多协议全能远程管理工具
  • 零基础数据结构与算法——第七章:算法实践与工程应用-搜索引擎
  • 洗浴中心泡池水过滤系统原理深度解析与工程实践