当前位置：首页 > news >正文

【动态网站资源保存下载】

news 2025/8/21 18:55:50

文章目录

- 概要
- 解决思路
- 技术细节
- 小结

概要

我们在网上浏览网站时，经常有这样的需求：将浏览的网页保存下来，即使无网的情况下也可以继续浏览。比如一些教育类网站的PPT，内容为HTML格式的，无法作为PPT格式下载下来，就需要将网页内的资源（包括html，css，js，png等）全部下载下来。这类PPT内容是需要不断点击下一页才能动态的展示后面的内容的，这就需要我们点击到最后一页才能把全部资源都展示出来。

解决思路

如何将网页上的动态资源下载下来呢？
通过查找资料，大部分网友推荐了这两个chrome浏览器插件：Save All Resources 和猫抓。但通过测试并不能完全满足需求。Save All Resources 插件不太稳定，有些小BUG，偶尔下载不了文件和漏掉资源文件，优点是下载下来的资源保持原资源的文件夹结构，直接打开离线HTML和在线功能一致。猫抓能够嗅探到资源并能较快的下载，但是没有保留原资源的文件夹结构。
基于上面插件的缺点，最终决定使用RPA软件影刀加脚本来实现动态资源下载。一是影刀RPA可以完成PPT网页内的下一页按钮自动点击。二是影刀RPA可以通过脚本代码下载所有资源文件，灵活性更高。

技术细节

实现PPT的下一页按钮的自动点击
这个对于影刀来说，so easy。可以参考影刀官网上的网页自动化中的教学课程学习，主要是使用点击元素，捕捉元素功能，判断元素是否可见（用在最后一页时的判定，捕捉按钮灰化）
实现下载动态资源
通过F12打开开发者工具，选择上方的“网络”选项卡，当点击PPT中的下一页按钮时，会刷新显示所有要下载的资源，通过影刀捕捉元素然后获取到下载链接，逐一下载资源。
目前这个方案下载速度较慢，因为使用的影刀提供的HTTP下载，一个个下载有点慢，没有找到多线程方案，可以选择晚上不用电脑时自动完成。

“网络”选项卡中的资源列表本身是动态加载的，使用影刀捕捉元素时显示的并不是全部资源，所以需要借助键盘按键“上箭头”，切换元素。