当前位置: 首页 > news >正文

数据篇| 关于Selenium反爬杂谈

在这里插入图片描述

友情提示:本章节只做相关技术讨论, 爬虫触犯法律责任与作者无关。

LLM虽然如火如荼进行着, 但是没有数据支撑, 都是纸上谈兵, 人工智能的三辆马车:算法-数据-算力,缺一不可。之前写过关于LLM微调文章《微调入门篇:大模型微调的理论学习》、《微调实操一: 增量预训练(Pretraining)》、《微调实操三:人类反馈对语言模型进行强化学习(RLHF)》、《微调实操四:直接偏好优化方法-DPO》等文章, 奈何无大数据支撑,停留在浅显层面,所以有必要学习数据获取相关技术发展。数据在这个领域起着至关重要的角色。数据作为重要的生产要素, 是企业核心资产,但对于大部分普通用户基本利用爬虫方获取,强如搜索引擎也同样离不开爬虫, 爬虫离不开反爬这个话题。 爬虫除了能够获取数据之外, 对于自动化测试、提高重复性工作效率同样有借鉴意义。

细心的同学肯定会发现,现在网站的验证码、验证逻辑越来越复杂, 以下图为例, 让机器自动化的难度越来越大。

在这里插入图片描述

现在大部分网站都采用js动态渲染, 传统接口抓取的缺点是抓不到 js 渲染后的页面和服务器渲染的web页面。

Selenium 是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些 JavaScript 动态渲染的页面来说,此种抓取方式非常有效, Selenium虽然能够模拟人的行为, 依然会出现爬虫的限制, 有哪些针对Selenium反爬的策略呢?今天我们一起深入研究一下:

1、 ip 代理, 轮换ip

2、禁用webdriver等自动化标识

3、轮换http header等标识

4、移除JavaScript标志

5、使用cookie

6、使用浏览器插件

http://www.lryc.cn/news/442482.html

相关文章:

  • MySQL高阶1890-2020年最后一次登录
  • update-alternatives官方手册
  • cesium.js 入门到精通(5-2)
  • LINUX的PHY抽象层——PAL
  • 优先级队列(堆)
  • 帧率和丢帧分析理论
  • solidwork找不到曲面
  • mac安装JetBtains全家桶新版本时报错:Cannot start the IDE
  • MVCC机制解析:提升数据库并发性能的关键
  • 如何使用Postman搞定带有token认证的接口实战!
  • Linux Vim编辑器常用命令
  • 【Android】浅析MVC与MVP
  • spark 面试题
  • 青柠视频云——如何开启HTTPS服务?
  • 2016年国赛高教杯数学建模A题系泊系统的设计解题全过程文档及程序
  • vue-使用refs取值,打印出来是个数组??
  • 微服务_入门1
  • 【学习资料】袋中共36个球,红白黑格12个,问能一次抽到3个红4个白5个黑的概率是多少?
  • @PathVariable,@RequestParam,@RequestBody注解,springboot与前端请求之间的数据类型转换
  • 在Python中优雅地打开和操作RDS
  • .whl文件下载及pip安装
  • 望繁信科技受邀出席ACS2023,为汽车行业数智化护航添翼
  • 基于 C语言的 Modbus RTU CRC 校验程序
  • 基于微信小程序的剧本杀游玩一体化平台
  • AMD或Intel上编译出来的程序,可以跑在海光上吗?
  • ChatGPT 4o 使用指南 (9月更新)
  • 微信getUserProfile不弹出授权框
  • iostat 命令:系统状态监控
  • 从底层原理上解释 ClickHouse 的索引
  • 9.20-使用k8s部署wordpress项目