当前位置: 首页 > news >正文

Python selenium模块简介

视频版教程:一天掌握python爬虫【基础篇】 涵盖 requests、beautifulsoup、selenium

有些网站的数据是js动态渲染的,我们无法通过网页源码直接找到数据,只能通过找接口方式来获取数据,但是很多时候,数据又是json格式的,给我们爬数据增加成本。

比如 CSDN - 专业开发者社区 这个网站 就是js动态渲染的首页数据。

这时候,使用selenium,我们可以通过模拟真实浏览器的用户操作行为,来获取js动态渲染后的网页数据,在进行解析网页,获取我们需要的数据。能大大提高我们的抓取效率。

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera,Edge等。

我们使用Selenium,模拟浏览器功能,自动执行网页中的js代码,实现动态加载,然后再进行数据抓取。

测试代码:

import requestsurl = "https://www.csdn.net/"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'
}r = requests.get(url=url, headers=headers)# 设置返回对象的编码
r.encoding = "utf-8"print(r.text)

运行发现,返回结果里面找不到我们需要的资讯数据。

http://www.lryc.cn/news/211264.html

相关文章:

  • DIY相机(一)libcamera库
  • PHP简单实现预定义钩子和自定义钩子
  • 笔记本电脑的摄像头找不到黑屏解决办法
  • 【Git】HEAD detached from xxx 问题及解决方案
  • Cannot connect to the Docker
  • 校园物业报修小程序开发笔记一
  • 用户登录前后端开发(一个简单完整的小项目)——SpringBoot与session验证(带前后端源码)全方位全流程超详细教程
  • FFmpeg5.1.3编译动态库踩坑之旅(基于Linux虚拟机)
  • 【语义分割】语义分割概念及算法介绍
  • 基于RK3568高性价比全国产EMS储能解决方案(一)概述
  • 3 Go的基础语法
  • Redis之Lua脚本讲解
  • redis archive github
  • 3台Centos7快速部署Kafka集群
  • 最小栈(C++解法)
  • Python 算法高级篇:堆排序的优化与应用
  • 视频下载软件 Downie4 mac中文介绍
  • 计算机操作系统重点概念整理-第一章 计算机系统概述【期末复习|考研复习】
  • 树莓派基金会近日发布了新版基于 Debian 的树莓派操作系统
  • Web项目如何做单元测试
  • MySQL主从复制(基于GTID--事务ID方式)
  • 3.72 Command Buffer及URP概述
  • 分布式理论和分布式锁知识点总结
  • IOC课程整理-17 Spring事件
  • 大数据Flink(一百零五):SQL性能调优
  • ESP8266,手机与电脑之间的TCP通讯
  • vue的数据监听是如何实现的?
  • 埋点日志解决方案——Golang+Gin+Sarama VS Java+SpringCloudGateway+ReactorKafka
  • LeetCode 541 反转字符串 II 简单
  • 从入门到精通:深入了解CSS中的Grid网格布局技巧和应用!