当前位置: 首页 > news >正文

使用 Node.js 和 Cheerio 爬取网站图片

写一个关于图片爬取的小案例

爬取效果

使用插件如下:

{"dependencies": {"axios": "^1.6.0","cheerio": "^1.0.0-rc.12","request": "^2.88.2"}
}

新建一个config.js配置文件

// 爬取图片网站
const url = 'http://m.hydcd.com/cy/fkccy/index9.htm'//可以自行修改网址
// http://www.hydcd.com/cy/fkccy/index.htm
// http://m.hydcd.com/cy/fkccy/
const path = require('path');
//图片下载文件夹
const imgDir = path.join(__dirname, 'img')module.exports.url = url
module.exports.imgDir = imgDir

找到需要下载的文件原元素位置

const cheerio = require('cheerio')function findImg(dom, callback) {let $ = cheerio.load(dom,{decodeEntities: false});//找到图片的位置 并获取图片链接$('table tbody tr td  img').each(function (i, elem) {let imgSrc = $(this).attr('src');let alt = $(this).attr('alt');callback(imgSrc, i,alt)})
}
module.exports.findImg = findImg;

const request = require('request')
const path = require('path')
const config = require('./config')
const analyze = require('./analyze')
const fs = require('fs')function start() {request(config.url, function (err, res, body) {console.log('start');if (!err && res) {console.log('start');analyze.findImg(body, download,{decodeEntities: false});}})
}
//这个图片地址链接前缀
let imgUrlPath = "http://m.hydcd.com/cy/fkccy/"
function download(imgUrl, i,alt) {console.log(imgUrl,"11111")let txt = imgUrl.split('images/')[1];request(imgUrlPath+imgUrl).pipe(fs.createWriteStream(path.join(config.imgDir,  txt), {'encoding': 'UTF-8',}))
}start();

以下是一个使用 Node.js 和 Cheerio 爬取网站图片的示例代码:

const axios = require('axios');
const cheerio = require('cheerio');
const fs = require('fs');// 定义要爬取的网页 URL
const url = 'https://example.com';// 发起 GET 请求获取网页内容
axios.get(url).then(response => {// 使用 Cheerio 加载网页内容const $ = cheerio.load(response.data);// 定义一个数组来保存图片 URLconst imageUrls = [];// 遍历页面中的图片标签$('img').each((index, element) => {// 获取图片的 src 属性值const imageUrl = $(element).attr('src');// 将图片的 URL 添加到数组中imageUrls.push(imageUrl);});// 下载图片imageUrls.forEach((imageUrl, index) => {// 发起 GET 请求获取图片内容axios.get(imageUrl, { responseType: 'stream' }).then(response => {// 创建一个可写流,将图片内容写入到文件中const writeStream = fs.createWriteStream(`image${index+1}.jpg`);// 将响应的数据流导向可写流response.data.pipe(writeStream);}).catch(error => {console.error(`下载图片失败:${error}`);});});}).catch(error => {console.error(`获取网页内容失败:${error}`);});

请注意,上述示例中的 https://example.com 是一个示例网站的 URL,你需要替换为你要爬取图片的实际网站 URL。

这段代码首先使用 Axios 发起 GET 请求获取网页内容,然后使用 Cheerio 加载网页内容,对图片标签进行遍历,获取图片的 src 属性值并保存到一个数组中。最后,通过循环遍历数组中的图片 URL,使用 Axios 再次发起 GET 请求获取图片内容,并通过可写流将图片内容写入到文件中。你可以自定义文件名和保存路径。

请注意,进行网站爬取时,一定要遵守法律法规,并注意对网站的使用限制和版权保护。同时,不要对不允许爬取的网站进行爬取,以免触犯相关法律法规并造成不良后果!!!!

http://www.lryc.cn/news/292692.html

相关文章:

  • 2024美赛数学建模E题思路源码
  • 解决Docker AList本地挂载失效的问题。
  • Emmet常用语法总结
  • Android 12系统源码_页面管理(四)获取系统当前最上层的Activity信息
  • RK3588开发板Ubuntu与开发板使用U盘互传
  • 【BUG】golang gorm导入数据库报错 “unexpected type clause.Expr“
  • TCP/IP网络模型
  • github连不上
  • Excel计算表达式的值
  • 26元/月起!腾讯云一键自动搭建4核16G幻兽帕鲁服务器
  • 【C++游戏开发-01】推箱子
  • 【lesson26】学习MySQL事务前的基础知识
  • 持续积累分享金融知识
  • 网络协议 UDP协议
  • 爬虫笔记(三):实战qq登录
  • 又涨又跌 近期现货黄金价格波动怎么看?
  • 软件压力测试:探究其目的与重要性
  • Android.bp入门指南之浅析Android.bp文件
  • 2024年美赛 (D题ICM)| 湖流网络水位控制 |数学建模完整代码+建模过程全解全析
  • 安卓网格布局GridLayout
  • DHCP简介
  • Hadoop生态系统中一些关键组件的详细解析
  • 功能强大的开源数据中台系统 DataCap 2024.01.1 发布
  • Redis的bitmap使用不当,我内存爆了
  • 基于python的新闻爬虫
  • C#基础题
  • AI大语言模型学习笔记之三:协同深度学习的黑魔法 - GPU与Transformer模型
  • c++阶梯之auto关键字与范围for
  • 第八篇:node模版引擎Handlebars及他的高级用法(动态参数)
  • css3 属性 backface-visibility 的实践应用