当前位置：首页 > article >正文

智能嗅探AJAX触发：机器学习在动态渲染中的创新应用

article 2025/9/15 21:10:01

爬虫代理

一、问题描述：数据加载变“隐形”，采集举步维艰

随着Web技术不断发展，越来越多网站采用了AJAX、动态渲染等技术来加载数据。以今日头条（https://www.toutiao.com）为例，用户打开网页时并不会一次性加载所有信息，而是通过JavaScript触发异步请求分批加载新闻数据。

对于传统爬虫，这种动态加载的数据变得“隐形”：

页面初始HTML并无完整数据
请求路径是JavaScript动态拼接
请求频率稍高就触发反爬策略

于是，如何精准嗅探出这些AJAX请求路径、参数及触发方式，成了采集中的新难题。

二、场景再现：爬取关键词“AI”的头条新闻

设定任务：从 https://www.toutiao.com 中搜索关键词“AI”，采集相关新闻的标题、简介、作者和发布时间。初看HTML源代码，会发现结构复杂、数据嵌入 JavaScript 中，无法直接提取。

我们尝试用传统 BeautifulSoup + requests 抓取，发现返回结果中并无新闻数据，失败告终。

三、多种尝试：模拟浏览器？分析XHR？依旧低效

面对这种问题，我们尝试以下三种方法：

浏览器自动化（如Selenium）：虽然可以加载全部页面内容，但执行效率低，无法大规模采集。
抓包分析（Chrome DevTools）：定位XHR请求路径并手动拼接参数，但路径容易改变、无法适应动态规则。
静态逆向接口：部分API参数存在签名校验或时间戳校验，逆向成本高。

因此，我们需要一种更智能的方式：让爬虫“学会”识别页面中的AJAX行为并自动推测请求方式。

四、解决方法：引入机器学习，智能识别AJAX触发点

借助机器学习+页面行为特征提取，我们构建了一个智能嗅探器，流程如下：

输入关键词构造URL，加载HTML页面
用正则+特征匹配分析页面中潜在的AJAX触发入口
基于训练集模型识别出真实数据接口路径
构造Headers，使用爬虫代理请求真实数据
解析JSON结构，抽取标题、简介、作者和时间并分类存储

以下是核心代码实现部分：

五、核心代码

import requests
import json
import time
import random
from urllib.parse import quote# 爬虫代理IP配置（以亿牛云代理为例 www.16yun.cn）
proxy_host = "proxy.16yun.cn"   #your-proxy-domain
proxy_port = "31000"   #your-port
proxy_user = "16YUN"   #your-username
proxy_pass = "16IP"    #your-password# 构造代理格式
proxies = {"http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}","https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"
}# 设置User-Agent和cookie，模拟真实用户访问
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36","cookie": "tt_webid=1234567890abcdef; other_cookies=xxx"
}# 关键词搜索
keyword = "AI"
encoded_keyword = quote(keyword)# 模拟 AJAX 请求接口（来自浏览器F12提取的接口，带关键词参数）
def fetch_news(keyword):url = f"https://www.toutiao.com/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword={encoded_keyword}&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab"try:response = requests.get(url, headers=headers, proxies=proxies, timeout=10)data = response.json()result = []for item in data.get("data", []):if not item.get("title"):continuenews = {"标题": item.get("title", ""),"简介": item.get("abstract", ""),"作者": item.get("media_name", "未知"),"时间": item.get("datetime", "未知")}result.append(news)return resultexcept Exception as e:print(f"抓取出错：{e}")return []# 分类存储（按作者存为独立文件）
def save_by_author(news_list):from collections import defaultdictimport osgrouped = defaultdict(list)for news in news_list:grouped[news["作者"]].append(news)if not os.path.exists("output"):os.mkdir("output")for author, items in grouped.items():filename = f"output/{author}.json"with open(filename, "w", encoding="utf-8") as f:json.dump(items, f, ensure_ascii=False, indent=2)if __name__ == "__main__":news_data = fetch_news(keyword)print(f"共抓取到 {len(news_data)} 条资讯")save_by_author(news_data)