当前位置：首页 > news >正文

Python网络爬虫实现selenium对百度识图二次开发以及批量保存Excel

news 2025/7/19 5:41:54

一.百度识图自动上传图片

from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
edge_options = Options()
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
driver = webdriver.Edge(options=edge_options)
driver.get('https://graph.baidu.com/pcpage/index?tpl_from=pc')
driver.find_element(by=By.NAME, value='file').send_keys(r"D:\7.18\图1.jpg")
input('')

代码讲解：百度识图自动上传图片

这段代码使用 Selenium 库实现了自动打开百度识图网页并上传本地图片的功能。下面是对代码的逐行解释：

from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By

导入必要的 Selenium 模块：webdriver用于控制浏览器，Options用于配置浏览器选项，By用于定位网页元素。

edge_options = Options()
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"

创建 Edge 浏览器的配置选项对象，并指定 Edge 浏览器的安装路径。这一步是可选的，如果 Edge 浏览器已添加到系统 PATH 中，可以省略。

driver = webdriver.Edge(options=edge_options)

初始化 Edge 浏览器驱动，创建一个可以控制浏览器的驱动对象。

driver.get('https://graph.baidu.com/pcpage/index?tpl_from=pc')

使用浏览器打开百度识图的网页。

driver.find_element(by=By.NAME, value='file').send_keys(r"D:\7.18\图1.jpg")

定位网页上的文件上传元素（通过元素的name属性值为file来查找）。
使用send_keys()方法模拟键盘输入，将本地图片的路径发送给上传元素，从而实现自动上传图片。

input('')

不启动浏览器获取网页资源

上述代码使用了 Selenium WebDriver，它需要启动一个真实的浏览器来执行操作。如果只需要获取网页的静态资源（如 HTML 内容、JSON 数据等），可以使用更轻量级的库，如requests：

程序会在此处暂停，等待用户输入（按 Enter 键）后才会继续执行并关闭浏览器。这通常用于调试时暂停程序，方便查看结果。
Selenium WebDriver 更多操作解释
元素交互方法：
- click()：模拟鼠标点击元素，常用于按钮、链接等可点击元素。
- send_keys(text)：模拟键盘输入文本到输入框等元素中。
- clear()：清空输入框中的内容。
- submit()：提交表单，通常用于表单中的提交按钮。
浏览器导航方法：
- back()：模拟浏览器的后退按钮，返回上一页。
- forward()：模拟浏览器的前进按钮，前进到下一页。
- refresh()：刷新当前页面。
- get(url)：打开指定 URL 的网页。
- current_url：获取当前页面的 URL。
浏览器控制方法：
- close()：关闭当前浏览器窗口。
- quit()：退出整个浏览器进程，关闭所有窗口。
- maximize_window()：最大化浏览器窗口。
- set_window_size(width, height)：设置浏览器窗口大小。
元素定位方法：
- find_element(By.ID, value)：通过元素 ID 定位。
- find_element(By.NAME, value)：通过元素 name 属性定位。
- find_element(By.CSS_SELECTOR, value)：通过 CSS 选择器定位。
- find_element(By.XPATH, value)：通过 XPath 表达式定位。
- find_elements()：返回所有匹配的元素列表。

import requestsurl = 'https://graph.baidu.com/pcpage/index?tpl_from=pc'
response = requests.get(url)if response.status_code == 200:# 获取网页的HTML内容html_content = response.textprint(html_content)
else:print(f"请求失败，状态码：{response.status_code}")

二.批量获取 Excel 相关图书信息

from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import time
def get_info(driver):time.sleep(5)eles_p = driver.find_elements(By.CLASS_NAME, 'book_item')print(f"找到 {len(eles_p)} 个图书项")  # 调试输出for ele_p in eles_p:ele_p.click()handles = driver.window_handlesdriver.switch_to.window(handles[-1])time.sleep(5)name = driver.find_element(By.CLASS_NAME, 'book-name').textprice = driver.find_element(By.CLASS_NAME, 'price').textauthor = driver.find_element(By.CLASS_NAME, 'book-author').textfile.write(f'图书名：{name}\t价格：{price}\t作者名：{author}\n')print(f"已保存：{name}")  # 调试输出driver.close()driver.switch_to.window(handles[-2])  # 回到上一个标签页（索引-2）
file = open('excel图书汇总.txt', 'w', encoding='utf-8')
chrome_options = Options()
chrome_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
driver = webdriver.Edge(options=chrome_options)
driver.get('https://www.ptpress.com.cn/')
elements = driver.find_elements(By.TAG_NAME, "input")
elements[0].send_keys("excel" + Keys.RETURN)
handles = driver.window_handles
driver.switch_to.window(handles[1])
driver.find_element(By.ID, "booksMore").click()
handles = driver.window_handles
driver.switch_to.window(handles[-1])
get_info(driver)
page_num = 1  # 记录当前页码
while True:try:# 尝试查找下一页按钮next_button = driver.find_element(By.CLASS_NAME, 'ivu-page-next')# 检查按钮是否禁用（不同网站禁用状态的class可能不同，需要根据实际情况调整）if 'ivu-page-disabled' in next_button.get_attribute('class'):print(f"已到达最后一页（第{page_num}页），停止爬取")breaknext_button.click()page_num += 1print(f"已翻到第{page_num}页")time.sleep(3)  # 等待页面加载get_info(driver)except Exception as e:print(f"爬取过程中出错：{e}")print(f"最后成功爬取的是第{page_num}页")break
file.close()
driver.quit()  # 关闭浏览器

代码讲解：批量获取 Excel 相关图书信息

这段代码使用 Selenium 自动化浏览器操作，从人民邮电出版社网站批量获取 Excel 相关图书的信息，并保存到文本文件中。下面是对代码的详细解释：

整体流程分析

这个程序主要分为以下几个部分：

浏览器初始化与搜索
信息提取函数
翻页与循环处理
异常处理与资源释放

代码详细解释

from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import time

导入必要的库：Selenium 相关模块用于控制浏览器，time 模块用于添加等待时间。

def get_info(driver):time.sleep(5)eles_p = driver.find_elements(By.CLASS_NAME, 'book_item')print(f"找到 {len(eles_p)} 个图书项")  # 调试输出for ele_p in eles_p:ele_p.click()handles = driver.window_handlesdriver.switch_to.window(handles[-1])time.sleep(5)name = driver.find_element(By.CLASS_NAME, 'book-name').textprice = driver.find_element(By.CLASS_NAME, 'price').textauthor = driver.find_element(By.CLASS_NAME, 'book-author').textfile.write(f'图书名：{name}\t价格：{price}\t作者名：{author}\n')print(f"已保存：{name}")  # 调试输出driver.close()driver.switch_to.window(handles[-2])  # 回到上一个标签页（索引-2）

get_info 函数：负责从当前页面提取图书信息
- 等待 5 秒让页面加载完成
- 查找所有图书项元素
- 遍历每个图书项，点击打开详情页
- 切换到新打开的标签页
- 提取书名、价格和作者信息并写入文件
- 关闭当前标签页，回到图书列表页

file = open('excel图书汇总.txt', 'w', encoding='utf-8')
chrome_options = Options()
chrome_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
driver = webdriver.Edge(options=chrome_options)
driver.get('https://www.ptpress.com.cn/')

打开文件用于保存数据
配置并启动 Edge 浏览器
访问人民邮电出版社网站

elements = driver.find_elements(By.TAG_NAME, "input")
elements[0].send_keys("excel" + Keys.RETURN)
handles = driver.window_handles
driver.switch_to.window(handles[1])
driver.find_element(By.ID, "booksMore").click()
handles = driver.window_handles
driver.switch_to.window(handles[-1])
get_info(driver)

找到搜索框并输入 "excel" 进行搜索
切换到搜索结果页面
点击 "更多图书" 按钮
切换到新打开的图书列表页面
调用 get_info 函数提取第一页的图书信息

page_num = 1  # 记录当前页码
while True:try:# 尝试查找下一页按钮next_button = driver.find_element(By.CLASS_NAME, 'ivu-page-next')# 检查按钮是否禁用if 'ivu-page-disabled' in next_button.get_attribute('class'):print(f"已到达最后一页（第{page_num}页），停止爬取")breaknext_button.click()page_num += 1print(f"已翻到第{page_num}页")time.sleep(3)  # 等待页面加载get_info(driver)except Exception as e:print(f"爬取过程中出错：{e}")print(f"最后成功爬取的是第{page_num}页")break

实现自动翻页功能：
- 查找下一页按钮
- 检查按钮是否被禁用（表示已到最后一页）
- 点击下一页按钮并更新页码
- 等待页面加载后继续提取信息
- 使用 try-except 捕获异常，确保程序健壮性

file.close()
driver.quit()  # 关闭浏览器

关闭文件和浏览器，释放资源

代码优化建议

等待机制改进：
- 使用显式等待替代固定的 time.sleep ()，提高代码稳定性
- 示例：

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC# 等待图书项元素加载完成
eles_p = WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CLASS_NAME, 'book_item'))
)

异常处理增强：

在 get_info 函数中添加元素查找的异常处理
示例：

try:name = driver.find_element(By.CLASS_NAME, 'book-name').text
except:name = "未找到书名"

数据存储优化：

考虑将数据保存为 CSV 或 Excel 格式，便于后续处理
示例：

import csvwith open('books.csv', 'w', newline='', encoding='utf-8') as csvfile:writer = csv.writer(csvfile)writer.writerow(['图书名', '价格', '作者名'])writer.writerow([name, price, author])

增加日志记录：

使用 logging 模块替代简单的 print 语句，便于调试和追踪
示例：

import logginglogging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logging.info(f"找到 {len(eles_p)} 个图书项")

这个程序通过自动化浏览器操作，成功实现了批量获取图书信息的功能。通过合理的优化，可以进一步提高代码的稳定性和可维护性。

查看全文

http://www.lryc.cn/news/591973.html

LangChain 源码剖析（七）RunnableBindingBase 深度剖析：给 Runnable“穿衣服“ 的装饰器架构

Yoga Air 32,Yoga Air 32,Yoga AIO 9 32IRH8(F0HH,F0HJ)一体机电脑原厂Win11系统镜像

服务攻防-Java组件安全FastJson高版本JNDI不出网C3P0编码绕WAF写入文件CI链

AI产品经理面试宝典第36天：AI+旅游以及行业痛点相关面试题的指导

sql注入以及Python二分查找

创建型模式

MinIO 分布式文件系统

第二篇 html5和css3开发基础与应用

【论文阅读】BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

poi-excel-添加水印

20250718【顺着234回文链表做两题反转】Leetcodehot100之20692【直接过12明天吧】今天计划

Vue导出Html为Word中包含图片在Microsoft Word显示异常问题

Excel批量生成SQL语句 Excel批量生成SQL脚本 Excel拼接sql

FastExcel：革新Java生态的高性能Excel处理引擎

2.3 前端-ts的接口以及自定义类型

VUE目录结构详解

html5+css3+canvas纯前端4字方形LOGO生成器

Edge浏览器的多用户配置文件功能

java前端基础--HTMLCSS、JavaScript、Vue、Ajax

【移动端知识】移动端多 WebView 互访方案：Android、iOS 与鸿蒙实现

首个直播流扩散(LSD)AI模型：MirageLSD，它可以实时把任意视频流转换成你的自定义服装风格——虚拟换装新体验

MyUI表单VcForm组件文档

组件-多行文本省略-展开收起

Android性能优化之内存优化

强化学习框架VeRL全面解析(架构、调试、修改与应用）

云原生 DevOps 实战之Jenkins+Gitee+Harbor+Kubernetes 构建自动化部署体系

【unitrix】 6.8 加一运算(add_one.rs)

【问题解决】npm包下载速度慢

游戏盾在非游戏行业的应用：跨界守护网络安全的新利器

Rust实战：高效对接Postman API