当前位置: 首页 > news >正文

Python克隆单个网页

网上所有代码都无法完全克隆单个网页,不是Css,Js下载不下来就是下载下来也不能正常显示,只能自己写了,记得点赞~

 效果如图:

源码与所需的依赖:

pip install requests
pip install requests beautifulsoup4 lxml 
requests.packages.urllib3.disable_warnings()
pip install urllib3
pip install pyOpenSSL requests[security] urllib3[secure]
import os
import time
import requests
from urllib.parse import urljoin
from bs4 import BeautifulSoup# 配置requests,不验证SSL证书
requests.packages.urllib3.disable_warnings()
session = requests.Session()
session.verify = False  # 不推荐,仅用于测试目的def sanitize_filename(filename):return "".join(i for i in filename if i not in "\/:*?<>|").split('?')[0]def ensure_dir(file_path):if file_path:directory = os.path.dirname(file_path)if directory and not os.path.exists(directory):os.makedirs(directory)def download_resource(url, dest_folder, local_path):try:r = session.get(url, stream=True)r.raise_for_status()ensure_dir(local_path)with open(local_path, 'wb') as f:for chunk in r.iter_content(chunk_size=8192):f.write(chunk)return Trueexcept requests.exceptions.RequestException as e:print(f"Error downloading {url}: {e}")return Falsedef update_resource_links(soup, tag, attribute, base_url, dest_folder, sub_folder):resources = soup.find_all(tag, {attribute: True})for resource in resources:old_url = resource[attribute]new_url = urljoin(base_url, old_url)local_filename = sanitize_filename(new_url.split('/')[-1])local_path = os.path.join(dest_folder, sub_folder, local_filename)full_local_path = os.path.abspath(local_path)if download_resource(new_url, dest_folder, full_local_path):resource[attribute] = os.path.join(sub_folder, local_filename).replace('\\', '/')def save_complete_webpage(url, dest_folder):response = session.get(url)response.raise_for_status()# 尝试从响应头部或内容中获取编码if response.encoding is None:response.encoding = response.apparent_encodingsoup = BeautifulSoup(response.content, 'html.parser', from_encoding=response.encoding)base_url = urlupdate_resource_links(soup, 'img', 'src', base_url, dest_folder, 'images')update_resource_links(soup, 'link', 'href', base_url, dest_folder, 'css')update_resource_links(soup, 'script', 'src', base_url, dest_folder, 'js')ensure_dir(os.path.join(dest_folder, 'index.html'))with open(os.path.join(dest_folder, 'index.html'), 'w', encoding=response.encoding) as file:file.write(soup.prettify())if __name__ == "__main__":timestamp = str(int(time.time()))[-5:]  # 获取当前时间戳的最后5位数字target_url = input("请输入网址:")  # 目标网址destination_folder = f'downloaded_website_{timestamp}'  # 添加时间戳后5位的本地文件夹路径save_complete_webpage(target_url, destination_folder)print(f"已完整,保存到{destination_folder}文件夹中")

 

http://www.lryc.cn/news/224351.html

相关文章:

  • 电脑硬盘数据恢复哪个好?值得考虑的 8 个硬盘恢复软件解决方案
  • 第二十三节——路由守卫
  • 在gitlab中的使用kaniko打造流水线
  • 【C语言 | 预处理】C语言预处理详解(一) —— #define、#under、#if、#else、#elif、#endif、#include、#error
  • 19、Flink 的Table API 和 SQL 中的自定义函数及示例(2)
  • (动手学习深度学习)第7章 残差网络---ResNet
  • 4.Pod详解
  • OCR技术狂潮:揭秘最新发展现状,引爆未来智能时代
  • 【hcie-cloud】【3】华为云Stack规划设计之华为云Stack交付综述【上】
  • Spring Ioc 容器启动流程
  • 【714. 买卖股票的最佳时机含手续费】
  • JS前端实现身份证号码合法性校验(校验码校验)
  • 操作系统 day09(线程)
  • 单通道低压 H 桥电机驱动芯片AT9110H 兼容L9110 马达驱动芯片
  • 18. 深度学习 - 从零理解神经网络
  • Pycharm加载项目时异常,看不到自己的项目文件
  • 目标检测YOLO实战应用案例100讲-基于无人机的轻量化目标检测系统设计(续)
  • 大文件传输小知识 | UDP和TCP哪个传输速度快?
  • 【tgcalls】Instance接口的实例类的创建
  • 【java:牛客每日三十题总结-3】
  • 区块链多链数字钱包开发
  • hive-行转列
  • 【赠书第2期】嵌入式虚拟化技术与应用
  • 如何写一篇吊炸天的竞品分析
  • 校园安防监控系统升级改造方案:如何实现设备利旧上云与AI视频识别感知?
  • 刷题笔记day15-二叉树层序遍历
  • 前端 JS 经典:ES6 和 CommonJs 用法
  • MacOS升级后命令行出现xcrun: error: invalid active developer path报错信息
  • 【Qt】QPalette
  • 专门为Web应用程序提供安全保护的设备-WAF