当前位置: 首页 > news >正文

Python + Playwright 无头浏览器Chrome找不到元素

用Python + Playwright调试时,发现不用无头浏览器(即headless=False)代码能够运行成功,但是一用无头浏览器时(即headless=True)就会报错,提示找不到元素。换成Firefox浏览器又不会有这个问题,有可能是因为网站有一个前段反爬虫手段。(同理,如果大家使用playwright codegen时遇到机器人检测的网站过不去的,也可以尝试加上-b firefox参数去指定使用Firefox浏览器去录制脚本,亲测对一些机器人检测的网站友好很多)

其中一种常见的反爬虫手段是通过检测当前user-agent是否为真实浏览器来区分当前请求是否来自真实用户。爬虫使用的常见user-agent类型为:

user-agent为空。没有设置user-agent。
user-agent中包含特殊字符。如:python,java,bot,spider,headless等。

而使用Playwright的Chrome无头浏览器访问网站时,user-agent中会自动添加Headless字段。当网站检测到user-agent包含Headless时判定为非真实请求时,可能会返回空页面,所以导致无头浏览器找不到元素。

因此我们需要添加user-agent来进行浏览器伪装,用浏览器到

https://www.useragentstring.com/index.php

这个网站可以查看当前浏览器使用的User Agent String,例如我的浏览器的User Agent String是Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36

随后参考以下示例,添加浏览器启动参数即可

def run(playwright: Playwright) -> None:browser = playwright.chromium.launch(headless=True, args=['--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'])
http://www.lryc.cn/news/98860.html

相关文章:

  • C++信号量与共享内存实现进程间通信
  • [Tools: Camera Conventions] NeRF中的相机矩阵估计
  • 【sgUpload】自定义上传组件,支持上传文件夹及其子文件夹文件、批量上传,批量上传会有右下角上传托盘出现,支持本地上传图片转换为Base64image
  • Kafka 实时处理Stream与Batch的对比分析
  • Andriod开发性能优化实践
  • linux环境安装mysql数据库
  • 【深度学习中常见的优化器总结】SGD+Adagrad+RMSprop+Adam优化算法总结及代码实现
  • 山东大学软件学院考试回忆——大二上
  • 【Express.js】异常分类和日志分级
  • k8s webhook实例,java springboot程序实现 对Pod创建请求添加边车容器 ,模拟istio实现日志文件清理
  • 关于electron的问题汇总
  • ps 给衣服换色
  • AI人工智能未来在哪里?2023年新兴产业人工智能有哪些就业前景?
  • 组件间通信案例练习
  • 【matlab】机器人工具箱快速上手-正运动学仿真(代码直接复制可用)
  • 论文解读|PF-Net:用于 3D 点云补全的点分形网络
  • 网络安全(零基础)自学
  • Spring Security 身份验证的基本类/架构
  • 市值超300亿美金,SaaS独角兽Veeva如何讲好中国故事?
  • 编译内联导致内存泄漏的问题定位修复
  • 基于WebSocket实现的后台服务
  • Go语言中的结构体详解
  • pytest自动化测试指定执行测试用例
  • 英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
  • var、let和const的区别
  • (css)AI智能问答页面布局
  • 【Pytorch学习】pytorch中的isinstance() 函数
  • (树) 剑指 Offer 07. 重建二叉树 ——【Leetcode每日一题】
  • Gitlab 合并分支与请求合并
  • 【Matter】基于Ubuntu 22.04 编译chip-tool工具