当前位置: 首页 > news >正文

029.爬虫专用浏览器-抓取跨域#document下的内容

一、iframe下的#document是什么

  • #document 是一个特殊的 HTML 元素,表示 <iframe> 元素内部的文档对象。
  • 当你在 HTML 页面中嵌入一个 <iframe> 元素时,浏览器会创建一个新的文档对象来表示 <iframe> 内部的内容。这 个文档对象就是 #document

二、如何获取#document下的内容

1. 使用 contentDocument 属性
var iframe = document.getElementById('myIframe');
var iframeDocument = iframe.contentDocument;
// 现在可以访问 iframe 文档中的元素了
var heading = iframeDocument.getElementsByTagName('h1')[0];
console.log(heading.textContent);
2. 使用 contentWindow.document
var iframe = document.getElementById('myIframe');
var iframeDocument = iframe.contentWindow.document;
// 访问 iframe 文档中的元素
var heading = iframeDocument.getElementsByTagName('h1')[0];
console.log(heading.textContent);

注意:如果 iframe 加载的页面与父页面不同源(即协议、域名或端口任一不同),则出于安全考虑,浏览器的同源政策会阻止你访问 iframe 的内容。这种情况下,contentDocument会返回null。

三、如何获取跨域iframe的#document里的内容

  • 网络上有其他解决方案,这里我提供一个修改chromium源码的方案。
  • 这里假设你已经可以熟练编译chromium源码。
1.找到源码:
  • 打开:\third_party\blink\renderer\core\html\html_iframe_element.idl
[CheckSecurity=ReturnValue] readonly attribute Document? contentDocument;
2.替换为:
//[CheckSecurity=ReturnValue] readonly attribute Document? contentDocument;
readonly attribute Document? contentDocument;

注意,这里就是把[CheckSecurity=ReturnValue]这段注释掉了,意思是忽略掉安全隔离。

3.编译:
ninja -C out/Default chrome
4.启动时加上参数(必须)
--disable-site-isolation-trials

操作完后,就可以发现,跨域iframe的#document里的内容也可以获取到啦。

四、风险

  • 1.取消跨域隔离有一定安全风险。
  • 2.有些站会做安全隔离检测,可能会被识别到。

如果有更好方案,请留言哈。

http://www.lryc.cn/news/469543.html

相关文章:

  • SIP 业务举例之 Call Hold(呼叫保持)
  • eks节点的网络策略配置机制解析
  • 【C】用c写贪吃蛇
  • qt QLineEdit详解
  • DevEco Studio的使用 习题答案<HarmonyOS第一课>
  • 鸿蒙网络编程系列36-固定包头可变包体解决TCP粘包问题
  • 【华为路由】OSPF多区域配置
  • 【C++初阶】一文讲通C++内存管理
  • Vue学习笔记(九、简易计算器)
  • Maven 不同环境灵活构建
  • 第三十篇:TCP连接断开过程,从底层说明白,TCP系列五
  • 代码随想录算法训练营第七天| 哈希表理论基础 454.四数相加II 383.赎金信 15.三数之和 18.四数之和
  • 搜维尔科技:Manus新品发布Metagloves Pro专业版,专为高精度需求的客户打造,尤其是人形机器人产业与人机工效研究使用
  • Spring Boot实现的动态化酒店住宿管理系统
  • 数字IC后端实现Innovus |给各种IP子模块添加port buffer和antenna diode万能脚本
  • 反向代理服务器---NGINX
  • unity3d————场景管理类SceneManager
  • 鹅厂面试官:Transformer 为何需要位置编码?
  • MySQL数据库学习指南
  • 算法刷题-小猫爬山
  • Maven项目管理工具-初始+环境配置
  • 【JavaEE初阶】网络编程TCP协议实现回显服务器以及如何处理多个客户端的响应
  • Android 中的串口开发
  • TensorRt OP
  • 构建负责任的人工智能:数据伦理与隐私保护
  • 微信小程序live-pusher和video同时使用,video播放声音时时大时小
  • MySQL 分库分表实战
  • MySQL—CRUD—进阶—(二) (ಥ_ಥ)
  • 时序分解 | TTNRBO-VMD改进牛顿-拉夫逊算法优化变分模态分解
  • 2024“源鲁杯“高校网络安全技能大赛-Misc-WP