当前位置：首页 > news >正文

【机器学习】并行计算（parallel computation）Part2

news 2025/7/20 17:47:36

Asynchronous Parallel Gradient Descent Using Parameter Server 用Parameter Server实现异步并行梯度下降

Parameter Server这种编程模型可以实现异步并行梯度下降，架构采用的是Client-Server，通信方式是Message-passing，同步方式是异步的（Asynchronous）。Ray是一个开源软件系统，支持Parameter Server。

同步算法：算法加速比会很低，时间会大量浪费在等待上。

异步算法： Worker不会空转，整个系统效率会很高。

异步算法可以这样进行实现：在worker上利用本地数据计算梯度，然后将计算好的梯度发送给server，并接受更新后的梯度。

实际上，异步算法比同步算法更快，而理论上异步算法有着更慢的收敛率。这是因为，如果我们有一个worker只更新了1次梯度，而其他worker已经更新了好多次次梯度了，这时候参数已经完全不一样了，过时了没有用了。所以，异步算法的实现是有要求的，额可以稍微快慢一些，但是慢很多的话就会出现问题。

MapReduce和Parameter Server都是Client-Server结构，而Decentralized network是Peer-to-peer结构。

算法是一样的都是data paralism，即每个节点都有自己的数据，都是可以收敛的。去中心化的算法网络构成一个图，收敛率与图结构有关。完整的图架构收敛很快，而连接不好的图结构不会收敛。