当前位置: 首页 > news >正文

python动态加载内容抓取问题的解决实例

亿牛云 (4).png

问题背景

在网页抓取过程中,动态加载的内容通常无法通过传统的爬虫工具直接获取,这给爬虫程序的编写带来了一定的技术挑战。腾讯新闻(https://news.qq.com/)作为一个典型的动态网页,展现了这一挑战。

问题分析

动态加载的内容通常是通过JavaScript在页面加载后异步获取并渲染的,传统的爬虫工具无法执行JavaScript代码,因此无法获取动态加载的内容。这就需要我们寻找解决方案来应对这一挑战。

解决方案

为了解决动态加载内容的抓取问题,我们可以使用Node.js结合一些特定的库来模拟浏览器行为,实现对动态加载内容的获取。一个常用的库是Puppeteer,它可以模拟浏览器环境,加载页面并执行其中的JavaScript代码。通过等待动态内容加载完成,我们可以有效地获取动态加载的内容。

爬取过程

当涉及到网页爬取时,我们通常需要执行一系列步骤来获取动态加载的内容。以下是一个更详细的技术性示例,展示了如何使用Node.js和相关库来完成爬取过程中的请求网页、解析HTML和构建爬虫框架的步骤:

  1. 请求网页:使用Node.js中的HTTP或者第三方库(比如axios)向腾讯新闻网页发起请求,获取页面内容,在这个示例中,我们使用了axios库来发起对腾讯新闻网页的GET请求,并获取了页面的HTML内容。
const axios = require('axios');async function fetchPage() {try {const response = await axios.get('https://news.qq.com/');return response.data;} catch (error) {console.error('Failed to fetch page:', error);return null;}
}fetchPage().then(data => {console.log(data); // 这里是页面的HTML内容
});
  1. 解析HTML:使用类似cheerio这样的库来解析HTML,定位到动态加载的内容所在的位置,在这个示例中,我们使用了cheerio库来解析HTML内容,通过载入页面内容并使用类似jQuery的语法来定位和提取页面中的内容。
const cheerio = require('cheerio');// 假设页面内容已经存在在变量pageContent中
const $ = cheerio.load(pageContent);
// 现在你可以使用$来定位和提取页面中的内容
  1. 构建爬虫框架:使用Puppeteer来模拟浏览器行为,等待页面加载完成后获取动态内容。在这个示例中,我们使用了Puppeteer库来模拟浏览器行为,加载页面并执行其中的JavaScript代码。通过等待动态内容加载完成,我们可以有效地获取动态加载的内容。
const puppeteer = require('puppeteer');(async () => {const browser = await puppeteer.launch();const page = await browser.newPage();await page.goto('https://news.qq.com/');// 在这里可以使用page.evaluate等方法获取动态加载的内容await browser.close();
})();
  1. 完整爬取代码:以下是一个简单的Node.js爬虫示例代码,用于获取动态加载的内容,并包含了代理信息:
const puppeteer = require('puppeteer');const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";(async () => {const browser = await puppeteer.launch({args: [`--proxy-server=http://${proxyUser}:${proxyPass}@${proxyHost}:${proxyPort}`]});const page = await browser.newPage();await page.goto('https://news.qq.com/');// 在这里可以使用page.evaluate等方法获取动态加载的内容await browser.close();
})();
http://www.lryc.cn/news/249762.html

相关文章:

  • 系列二十三、将一个第三方的类配置成bean的方式
  • 【长文干货】Python可视化教程
  • 软件工程--需求工程--学习笔记(超详细)
  • TemplateHit中提取query和hit比对上序列索引的映射字典
  • 富必达API:一站式无代码开发集成电商平台、CRM和营销系统
  • 聊聊接口最大并发处理数
  • 6.如何利用LIO-SAM生成可用于机器人/无人机导航的二维/三维栅格地图--以octomap为例
  • 【多传感器融合】BEVFusion: 激光雷达和视觉融合框架 NeurIPS 2022
  • kafka中的常见问题处理
  • HarmonyOS(八)——@Styles装饰器:定义组件重用样式
  • 手写VUE后台管理系统5 - 整合状态管理组件pinia
  • 解决webpack打包生成gz格式css/js文件没法在nginx使用的问题--全网唯一正确
  • 传统算法: Pygame 实现快速排序
  • HarmonyOS入门开发(三) 持久化存储Preferences
  • 类和对象——(3)再识对象
  • 【UGUI】实现背包的常用操作
  • 单机zk安装与zk四字命令
  • matlab导入excel数据两种常见的方法
  • 华为全屋智能5.0,无为而“智”
  • Flask 实现Token认证机制
  • MATLAB 和 Simulink 官方文档下载地址
  • 【Element】el-switch开关 点击弹窗确认框时状态先改变----点击弹窗取消框失效
  • Java 中最常用的设计模式之一,工厂模式模式的写法,
  • HTML的学习
  • JS设计模式 — 行为委托
  • Microsoft Expression Web - 网页布局
  • Java SpringBoot Controller常见写法
  • 【驱动】SPI驱动分析(五)-模拟SPI驱动
  • 人工智能_机器学习056_拉格朗日乘子法原理推导_公式由来详解_原理详解---人工智能工作笔记0096
  • 记RocketMQ本地开发环境搭建始末