当前位置: 首页 > news >正文

js爬虫puppeteer库 解决网页动态渲染无法爬取

我们爬取这个网址上面的股票实时部分宇通客车(600066)_股票价格_行情_走势图—东方财富网

我们用正常的方法爬取会发现爬取不下来,是因为这个网页这里是实时渲染的,我们直接通过网址接口访问这里还没有渲染出来

于是我们可以通过下面的代码来进行爬取:

npm install puppeteer
//index.js
const puppeteer = require('puppeteer');(async () => {const browser = await puppeteer.launch();const page = await browser.newPage();try {await page.goto('http://quote.eastmoney.com/sh600066.html', { timeout: 60000 }); // 设置页面加载超时时间为 60 秒} catch (error) {console.error('Navigation timeout error:', error);}// 等待页面加载完成//sider_brief是我们查找的盒子类名await page.waitForSelector('.sider_brief');const stockName = await page.$eval('.sider_brief', element => element.textContent.trim());console.log('股票名称:', stockName);await browser.close();
})();

爬取成功


优化

既然是股票的东西,那么我们当然要实时监控啊,所以我们加入一个定时脚本,一直运行我们的js

run_script.bat:

:loop
node index.js
timeout /t 1 >nul
goto loop

运行:

run_script.bat

就实现了实时监控

http://www.lryc.cn/news/340457.html

相关文章:

  • 代码随想录:二叉树5
  • Tomcat 获取客户端真实IP X-Forwarded-For
  • 记录PS学习查漏补缺
  • Kafka 架构深入探索
  • k-means聚类算法的MATLAB实现及可视化
  • Excel文件转Asc文件
  • 【题目】【信息安全管理与评估】2022年国赛高职组“信息安全管理与评估”赛项样题7
  • Webrtc 信令服务器实现
  • 【Blockchain】连接智能合约与现实世界的桥梁Chainlink
  • 解决EasyPoi导入Excel获取不到第一列的问题
  • Vue 阶段练习:记事本
  • JavaScript判断受访域名,调用不同的js文件
  • 下载软件时的Ubuntu x86_64-v2、skylake、aarch64版本分别代表什么?
  • 数字化社交的引擎:解析Facebook的影响力
  • 淘宝API商品详情数据在数据分析行业中具有不可忽视的重要性
  • 【产品】ANET智能通信管理机 物联网网关 电力监控/能耗监测/能源管理系统
  • R语言数据分析案例
  • vscode debug 配置:launch.json
  • idea工具使用Tomcat创建jsp 部署servlet到服务器
  • MyBatisPlus自定义SQL
  • 使用formio和react实现在线表单设计
  • MySQL 基础使用
  • ✌粤嵌—2024/4/3—合并K个升序链表✌
  • 企业微信主体的修改方法
  • C++的封装(十):数据和代码分离
  • 第十五届蓝桥杯大赛软件赛省赛 C/C++ 大学 B 组(基础题)
  • 模板的进阶
  • 微服务中Dubbo通俗易懂讲解及代码实现
  • Unity HDRP Release-Notes
  • Chrome将网页保存为PDF的实战教程