当前位置: 首页 > news >正文

【nodejs】用Node.js实现简单的壁纸网站爬虫

1. 简介

在这个博客中,我们将学习如何使用Node.js编写一个简单的爬虫来从壁纸网站获取图片并将其下载到本地。我们将使用Axios和Cheerio库来处理HTTP请求和HTML解析。

2. 设置项目

首先,确保你已经安装了Node.js环境。然后,我们将创建一个新的文件夹,初始化项目并安装所需的依赖库:

Copy code
mkdir wallpaper-scraper
cd wallpaper-scraper
npm init -y
npm install axios cheerio
  1. 编写爬虫代码

在项目文件夹中,创建一个名为scraper.js的文件,并将你提供的代码复制粘贴进去。

const axios = require('axios');
const cheerio = require('cheerio');
const fs = require('fs');const baseUrl = 'http://www.netbian.com/';
const page = 3;const pachong = async () => {const imgList = [];for (let i = 0; i < page; i++) {const res = await axios.get(`${baseUrl}index${i === 0 ? '' : `_${i + 1}`}.htm`,);const $ = cheerio.load(res.data);const imgList2 = $('.list li a img').toArray().map((item) => {return $(item).attr('src');});imgList.push(...imgList2);}writeFile(imgList);
};const writeFile = async (urls) => {urls.forEach(async (item) => {try {const res = await axios.get(item, { responseType: 'arraybuffer' });const imgBuffer = Buffer.from(res.data, 'binary');await fs.promises.writeFile(`./img/${new Date().getTime()}.jpg`,imgBuffer,);console.log('写入成功 --- ' + item);} catch (error) {console.log('写入失败 --- ' + error);}});
};pachong();

4. 运行爬虫

现在,你可以在命令行中运行爬虫脚本:

node scraper.js

脚本会自动爬取壁纸网站的图片并将它们下载到一个名为img的文件夹中。每张图片将使用当前时间戳作为文件名,以确保唯一性。
在这里插入图片描述

5. 注意事项

确保遵守网站的使用条款和条件。不要过度请求或滥用网站,以免造成不必要的麻烦。
代码中使用的选择器、URL结构等可能会因网站结构的更改而失效。需要根据实际情况进行调整。

http://www.lryc.cn/news/133036.html

相关文章:

  • xlsx xlsx-style file-saver 导出json数据到excel文件并设置标题字体加粗
  • Win11游戏高性能模式怎么开
  • 深度学习最强奠基作ResNet《Deep Residual Learning for Image Recognition》论文解读(上篇)
  • 第22次CCF计算机软件能力认证
  • Go语言基础之基本数据类型
  • Linux Tracing Technologies
  • iOS自定义下拉刷新控件
  • Springboot写单元测试
  • 一篇文章教你使用Docker本地化部署Chatgpt(非api,速度非常快!!!)及裸连GPT的方式(告别镜像GPT)
  • 前馈神经网络dropout实例
  • Android DataStore:安全存储和轻松管理数据
  • opencv进阶12-EigenFaces 人脸识别
  • The internal rate of return (IRR)
  • 半导体自动化专用静电消除器主要由哪些部分组成
  • 【C++入门到精通】C++入门 —— deque(STL)
  • Codeforces Round 893 (Div. 2) D.Trees and Segments
  • SpringBoot + Vue 前后端分离项目 微人事(九)
  • 【业务功能篇71】Cglib的BeanCopier进行Bean对象拷贝
  • 让eslint的错误信息显示在项目界面上
  • 手摸手带你实现一个开箱即用的Node邮件推送服务
  • 【Linux网络】网络编程套接字 -- 基于socket实现一个简单UDP网络程序
  • Python学习笔记第六十四天(Matplotlib 网格线)
  • 机器学习与模式识别3(线性回归与逻辑回归)
  • vue启动配置npm run serve,动态环境变量,根据不同环境访问不同域名
  • HTML <strike> 标签
  • 数学建模-模型详解(1)
  • MySQL 数据库表的基本操作
  • 企业微信电脑端开启chrome调试
  • Maven官网下载配置新仓库
  • 银河麒麟V10 达梦安装教程