当前位置: 首页 > news >正文

028.爬虫专用浏览器-抓取#shadowRoot(closed)下的内容

一、什么是Shadow DOM

  • Shadow DOM是一种在web开发中用于封装HTML标记、样式和行为的技术,以避免组件间的样式和脚本冲突。
  • 它允许开发者将网页的一部分隐藏在一个独立的作用域内,从而实现更加模块化和可维护的代码结构

二、js操作Shadow DOM

// 获取宿主元素
const host = document.getElementById('main');// 创建一个Shadow Root
const shadowRoot = host.attachShadow({mode: 'open'});// 在Shadow DOM中添加内容
shadowRoot.innerHTML = `<style>:host { display: block; }</style><p>Hello, Shadow DOM!</p>`;// 访问Shadow DOM中的内容
const shadowContent = host.shadowRoot.querySelector('p').textContent;
console.log(shadowContent); // 输出: Hello, Shadow DOM!

注意:这里attachShadow函数的mode参数有2种,open和closed。

  • 当mode设置为open时,Shadow DOM是相对开放的。这意味着外部的JavaScript代码可以通过宿主元素的shadowRoot属性访问Shadow DOM。这种访问权限允许开发者读取和修改Shadow DOM的结构和内容。
  • 当mode设置为closed时,Shadow DOM对外部JavaScript是不可访问的。这意味着宿主元素的shadowRoot属性在外部代码中将会返回null,从而无法直接访问或操作Shadow DOM的内容。

三、如何获取closed的shadowRoot里的内容

  • 网络上的数据如果不想让我们获取的话,一定是会使用closed模式,让我们无法js访问。

在这里插入图片描述

  • 但这里我们现在就是要获取closed的数据里面的内容怎么办呢?这里我提供一个解决方案:修改chromium源码,使shadowRoot的mode强行变为open。
1.找到源码:
  • 打开:\third_party\blink\renderer\core\dom\element.cc

  • 找到:

ShadowRoot* Element::attachShadow(const ShadowRootInit* shadow_root_init_dict,ExceptionState& exception_state) {DCHECK(shadow_root_init_dict->hasMode());String mode_string = shadow_root_init_dict->mode();
2.替换为:
ShadowRoot* Element::attachShadow(const ShadowRootInit* shadow_root_init_dict,ExceptionState& exception_state) {DCHECK(shadow_root_init_dict->hasMode());//String mode_string = shadow_root_init_dict->mode();mode_string = "open";
3.编译:
ninja -C out/Default chrome

编译完成后,可以发现所有的shadowRoot状态全部变成open啦。

四、还可以优化

  • 由于有些站会做反爬检测,如果发现shadowRoot返回的不是null后,就返回一些错误信息。
  • 这里我的优化思路是给Element新增一个魔改后的shadowRoot2属性,这样网站继续检测shadowRoot是不会有问题啦,有人关注的话会再补,没人关注就不写了。
  • 励志做个好用的爬虫浏览器。
http://www.lryc.cn/news/468192.html

相关文章:

  • Serv00 免费虚拟主机 零成本搭建 PHP / Node.js 网站
  • C#里使用ORM访问mariadb数据库
  • 电商揭秘:商城积分体系简析
  • [OS] 终端控制(Terminal Control) 暂停执行线程(Suspend Executing Thread)
  • 水陆两栖车应对应急事件发挥的作用_鼎跃安全
  • CI/CD 流水线系统-开源框架Tekton
  • Spring MVC(下)
  • 开发涉及的安全规范整理
  • 驱动开发系列26 - Linux Graphics 调试 mesa 的 glDrawArrays (二)
  • laya-spine动画的使用
  • Vue项目实战-新能源汽车可视化(一)(持续更新中)
  • 百度SEO前10关键词排名波动跟用户行为反馈有很大关系
  • 基于微信小程序的电影交流平台
  • Java实现 itext PDF文件打印水印(文字和图片水印)
  • 面经之一:Synchronized与ReentrantLock区别
  • 论文速读:面向单阶段跨域检测的域自适应YOLO(ACML2021)
  • React中在map遍历中,给虚拟标签(<></>)加key
  • 大数据生态守护:Hadoop的深度保护策略
  • 代码欣赏之:此题易错在 a+b 非要写成 a-fabs(b).因为这样就成了浮点值了,得不到准确数
  • ECharts饼图-环形图,附视频讲解与代码下载
  • arcgis js 怎么加载geoserver发布的wms服务
  • 前端_006_Vue2
  • 论多端数据互通网游的架构评估
  • 网页HTML编写练习:华语榜中榜
  • C++ 编程基础:深入理解 `pair`(键值对) 和 `unordered_map`(无序映射)
  • 高德动态地图
  • springboot集成camunda学习与使用
  • 微服务架构学习笔记
  • 代码优化之简化if臃肿的判断条件
  • 【OpenAI】第六节(语音生成与语音识别技术)从 ChatGPT 到 Whisper 的全方位指南