当前位置: 首页 > news >正文

puppeteer 系列模块的系统性、详细讲解

puppeteer 系列模块的系统性、详细讲解

🧩 一、核心模块介绍

1. puppeteer

全功能 Puppeteer 包,默认包含 Chromium 浏览器

npm install puppeteer
  • 包含内容:Puppeteer API + Chromium 浏览器
  • 适合场景
    • 想直接运行,不关心浏览器版本(直接附带一个稳定 Chromium)
    • 本地开发、调试用
  • 缺点:
    • 体积大(100M+)
    • 安装慢,尤其在 CI/CD、国内网络中不便

2. puppeteer-core

轻量版 Puppeteer,不包含 Chromium

npm install puppeteer-core
  • 只包含 API:必须手动指定或连接已有的浏览器
  • 适合场景
    • 想使用自定义浏览器版本(如 Chrome 稳定版)
    • 避免重复下载浏览器(节省磁盘与网络)
  • 常配合:
const browser = await puppeteer.launch({executablePath: '/path/to/your/chrome'
});

3. puppeteer-extra

用于增强 Puppeteer 功能的框架包

npm install puppeteer-extra
  • 基于 puppeteer-core 封装

  • 提供插件机制:可加载多个插件增强能力

  • 常见插件:

    • puppeteer-extra-plugin-stealth:防止被识别为自动化脚本
    • puppeteer-extra-plugin-adblocker:广告屏蔽器
  • 使用方式

const puppeteer = require('puppeteer-extra');
puppeteer.use(require('puppeteer-extra-plugin-stealth')());
  • ✅ 优势:

    • 插件机制灵活
    • 安装更轻量(和 puppeteer-core 结合)

4. puppeteer-extra-plugin-stealth

用于绕过反爬虫检测的核心插件

npm install puppeteer-extra-plugin-stealth
  • 绕过检测能力(以下是它覆盖的一些特征):
目标特征描述
navigator.webdriver设置为 false
Chrome headless userAgent 字样伪装为正常 Chrome
permissions API伪装为正常用户行为
pluginsmimeTypes模拟真实插件
WebGL 伪装防 Canvas 指纹识别
iframe 伪装兼容 iframe 中加载
navigator.languages正常语言环境模拟
navigator.hardwareConcurrency多核模拟(默认 4、8)
  • 使用方法
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');puppeteer.use(StealthPlugin());const browser = await puppeteer.launch({headless: false
});

📦 二、推荐组合使用方式

应用场景推荐组合示例
本地快速开发puppeteer + puppeteer-extra用内置 Chromium,省事
自定义浏览器版本puppeteer-core + puppeteer-extra使用真实 Chrome 路径
抗检测爬虫puppeteer-core + puppeteer-extra + stealth最稳定最安全方案

示例:抗检测稳定组合

const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());(async () => {const browser = await puppeteer.launch({headless: false,executablePath: 'C:\\Program Files\\Google\\Chrome\\Application\\chrome.exe', // 你的 Chrome 安装路径args: ['--no-sandbox', '--disable-blink-features=AutomationControlled']});const page = await browser.newPage();await page.goto('https://www.google.com');
})();

🧠 三、常见问题与建议

问题建议
下载速度慢使用 puppeteer-core,自带浏览器改为本地
网站识别自动化脚本使用 puppeteer-extra + stealth
页面报错:navigator.webdriver = true开启 stealth 插件会自动处理
Chrome 安装路径如何获取?手动在系统中查看,或用 chrome://version 页面复制
Mac/Linux 也能用吗?可以,注意路径为 /Applications/.../Google Chrome

✅ 总结

名称是否带浏览器是否支持插件适用场景
puppeteer快速开发
puppeteer-core❌(需要手动集成)自定义浏览器
puppeteer-extra插件化抗检测
puppeteer-extra-plugin-stealth-✅(插件)绕过反爬虫检测
http://www.lryc.cn/news/602031.html

相关文章:

  • 使用JavaScript实现一个代办事项的小案例
  • 八大神经网络的区别
  • 【RH134 问答题】第 6 章 管理 SELinux 安全性
  • 计算机网络(基础篇)
  • 《零基础入门AI: 从轮廓查找到形态学变换(OpenCV图像预处理)》
  • 【深度学习新浪潮】基于文字生成3D城市景观的算法有哪些?
  • Leaflet 综合案例-聚类图层控制
  • Python快速入门(2025版):输入
  • 婚纱摄影管理系统(发送邮箱、腾讯地图API、物流API、webSocket实时聊天、协同过滤算法、Echarts图形化分析)
  • C++ list 容器全解析:从构造到模拟实现的深度探索----《Hello C++ Wrold!》(16)--(C/C++)
  • 数值计算 | 图解基于龙格库塔法的微分方程计算与连续系统离散化(附Python实现)
  • C primer plus (第六版)第九章 编程练习第6题
  • 【Rust异步】async和await异步编程实战:高并发任务处理全解析
  • Java 排序
  • 股指期货周度想法
  • RWA 正当红,是 DeFi 的终点、拐点,还是新起点?
  • 【C++】手搓一个STL风格的vector容器
  • 7.DRF 过滤、排序、分页
  • 开发指南125-HTML DOM事件
  • 【Linux篇章】穿越数据迷雾:HTTPS构筑网络安全的量子级护盾,重塑数字信任帝国!
  • Kafka——请求是怎么被处理的?
  • 云原生MySQL Operator开发实战(三):高级特性与生产就绪功能
  • RabbitMQ+内网穿透远程访问教程:实现异地AMQP通信+Web管理
  • MongoDB索引及其原理
  • Java#包管理器来时的路
  • k8s的权限
  • Windows|CUDA和cuDNN下载和安装,默认安装在C盘和不安装在C盘的两种方法
  • C++ 中实现 `Task::WhenAll` 和 `Task::WhenAny` 的两种方案
  • Android启动时间优化大全
  • i节点学习