如何结合Node和Puppeteer做网络爬虫
浏览器引用
我们光安装了之后还不行,还要进行浏览器的引入
。这个也是非常的头疼,看了好多的教程都不可以。可能是他们的系统不一样,在这里折腾很久都想放弃了。还好有这篇文章解决了我的问题,我知道是路径有误但我不知道怎么写。
浏览器下载之后我们就解压放到根目录下面,与package.json同级。然后我们在根目录下新建一个index.js文件。
const puppeteer = require(“puppeteer”);
const fs = require(“fs”);
const request = require(“request”);
const path = require(“path”);
//配置路径,关键!
const pathToExtension = require(“path”).join(
__dirname,
“./chrome-win/chrome.exe”
);
最后我的项目目录:
我们都设置好了之后我们就开始选取一个网站进行测试了,我这里就选择了这个来爬取图片。
其实我们知道万物皆可爬,只要分析对了就好。前端最熟悉不过的F12走一波就好。看了一下大概结构是长这样的,准备好了之