当前位置: 首页 > news >正文

python网络爬虫(第二步:安装浏览器驱动,驱动浏览器加载网页、批量下载资源)

python网络爬虫(第二步:安装浏览器驱动,驱动浏览器加载网页、批量下载资源)

(学习第一步在这里)

python网络爬虫(第一步:网络爬虫库、robots.txt规则(防止犯法)、查看获取网页源代码)-CSDN博客

安装浏览器驱动

一:

查看浏览器版本:

二:

安装对应版本驱动器

Microsoft Edge WebDriver | Microsoft Edge Developer

打开往下翻

下载好后解压,复制文件夹内的.exe文件粘贴到 你的python的Scripts文件夹路径中即可

正式学习爬虫

加载网页

代码 1

from selenium import webdriver
from selenium.webdriver.edge.options import Options
edge_options = Options()
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
driver = webdriver.Edge(options=edge_options)
driver.get("http://www.baidu.com")
input("")

运行结果:启动 Edge 浏览器并打开百度首页,程序等待用户输入后退出。
代码解析:配置 Edge 浏览器路径,创建 WebDriver 实例,打开指定 URL,input ("") 用于保持浏览器打开状态。

代码 2

from selenium import webdriver
from selenium.webdriver.edge.options import Options
edge_options = Options()
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
driver = webdriver.Edge(options=edge_options)
driver.get('https://www.ptpress.com.cn//periodical')
input("")

运行结果:启动 Edge 浏览器并打开人民邮电出版社期刊页面,等待用户输入后退出。
代码解析:同代码1,仅 URL 不同,打开的是出版社期刊页面。

打开新标签页

代码

from selenium import webdriver
from selenium.webdriver.edge.options import Options
edge_options = Options()
edge_options.binary_location = r"C:\Program Files\Google\Edge\Application\edge.exe"
driver = webdriver.Edge(options=edge_options)
driver.get('https://www.ptpress.com.cn/')
driver.execute_script("window.open('https://www.ptpress.com.cn/login','_blank');")
driver.execute_script("window.open('https://www.shuyishe.com/','_blank');")
driver.execute_script("window.open('https://www.shuyishe.com/course','_blank');")
input("")

运行结果:启动 Edge 浏览器,先打开出版社首页,再依次在新标签页中打开登录页、书艺社首页和课程页,等待用户输入后退出。


代码解析:通过 execute_script 执行 JavaScript 代码,使用 window.open 方法在新标签页打开指定 URL。

获取渲染后的网页代码

代码

from selenium import webdriver
from selenium.webdriver.edge.options import Options
edge_options = Options()
edge_options.binary_location = r"C:\Program Files\Google\Edge\Application\edge.exe"
driver = webdriver.Edge(options=edge_options)
driver.get('https://www.ptpress.com.cn/')
print(driver.page_source)
input("")

运行结果:启动 Edge 浏览器打开出版社首页,打印浏览器渲染后的完整 HTML 源代码,等待用户输入后退出。
代码解析:通过 page_source 属性获取浏览器当前页面的源代码,适用于获取动态加载内容。

批量下载网页中的资源

代码

from selenium import webdriver
from selenium.webdriver.edge.options import Options
import re
import requestsedge_options = Options()
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
driver = webdriver.Edge(options=edge_options)
driver.get("https://www.ptpress.com.cn/search?keyword=C")
imgs = re.findall(r'<img src="(.+?jpg)">', driver.page_source)
a=1
for i in imgs:f = open('imgs/'+str(a)+'.jpg', 'wb')a+=1img = requests.get(i)f.write(img.content)f.close()

运行结果:启动 Edge 浏览器打开 C 语言相关搜索结果页,从页面源代码中提取所有 jpg 图片 URL,下载并保存到本地 imgs(提前创建) 文件夹中。


代码解析:使用正则表达式从页面源代码中提取图片 URL,通过 requests 库下载图片并保存到本地文件。

(学习第一步在这里)

python网络爬虫(第一步:网络爬虫库、robots.txt规则(防止犯法)、查看获取网页源代码)-CSDN博客

http://www.lryc.cn/news/591386.html

相关文章:

  • 板凳-------Mysql cookbook学习 (十一--------12)
  • 20250717在荣品的PRO-RK3566开发板的Android13系统下解决点屏出现问题unsupport command data type: 217
  • x3CTF-2025-web-复现
  • 深度学习 -- Tensor属性及torch梯度计算
  • 计算机的网络体系及协议模型介绍
  • 外贸ERP软件有哪些?八大热门erp软件功能测评
  • centos中新增硬盘挂载文件夹
  • 河南萌新联赛2025第(一)场:河南工业大学(补题)
  • 亚远景科技助力长城汽车,开启智能研发新征程
  • 视频安全新思路:VRM视频分片错序加密技术
  • C++性能优化与现代工程实践:打造高效可靠的软件系统
  • C++性能优化
  • 91套商业策划创业融资计划书PPT模版
  • Java Stream API性能优化:原理深度解析与实战指南
  • PyTorch边界感知上下文神经网络BA-Net在医学图像分割中的应用
  • 多端协同的招聘系统源码开发指南:小程序+APP一体化设计
  • Android 实现:当后台数据限制开启时,仅限制互联网APN。
  • 小程序按住说话
  • 紫金桥跨平台监控组态软件 | 功能强大,支持复杂工业场景,与西门子 PLC 无缝兼容
  • 【Linux基础知识系列】第五十二篇 - 初识Linux的内置命令
  • 三十四、【扩展工具篇】JSON 格式化与解析:集成 Monaco Editor 打造在线 JSON 工具
  • 物联网主机在化工园区安全风险智能化管控平台中的应用
  • day055-Dockerfile与常用指令
  • PyCharm 高效入门指南(引言 + 核心模块详解)
  • 【C# in .NET】16. 探秘类成员-索引器:通过索引访问对象
  • 关于接口测试的HTTP基础【接口测试】
  • 解读一个大学专业——信号与图像处理
  • 一种融合人工智能与图像处理的发票OCR技术,将人力从繁琐的票据处理中解放
  • 小红书获取关键词列表API接口详解
  • 在 Windows 上使用 Docker 运行 Elastic Open Crawler