当前位置：首页 > news >正文

python 爬虫之js逆向爬虫详解

news 2025/8/25 19:08:22

随着网站前端技术的不断发展，越来越多的网站采用JS进行渲染，并加上了一些反爬机制，导致传统的爬虫技术有些力不从心。本文将为大家介绍如何进行JS逆向爬虫，并且不少于1000字。

一、JS逆向爬虫的介绍

JS逆向是一种分析反爬机制的行为，通过分析反爬机制如何加密、混淆和模拟JS代码的执行，使之能够成功处理并渲染网页。由于JS逆向的方式需要进行复制粘贴，因此开发过程中需要耗费一定的时间和精力。

在Python上，我们可以使用Requests和Selenium等库来获取页面元素或模拟人类操作。Requests库是一种强大、简洁的HTTP请求库。而Selenium是一个自动化测试框架，用于模拟用户在浏览器中的操作。过程如下：

使用Requests

import requests# 获取页面
r = requests.get(url)
html = r.content# 对页面进行解析
# ...使用Seleniumfrom selenium import webdriver# 创建浏览器对象
browser = webdriver.Chrome()
browser.get(url)# 获取页面
html = browser.page_source# 对页面进行解析
# ...# 关闭浏览器
browser.quit()

二、JS逆向的原理

当浏览器使用JS渲染页面时，它会从客户端下载HTML文件并下载相关的JS库。当完成下载之后，浏览器会自动执行所有与页面相关的JS代码，根据代码来生成和修改HTML元素的DOM结构。这意味着，我们需要模拟并执行JS代码轨迹，对页面元素进行解析，即可获取页面信息。

三、如何进行JS逆向爬虫

在进行JS逆向之前，我们首先需要对目标网页进行分析，找出JS代码的执行顺序以及可能的加密方式、参数等。JS代码通常使用jQuery、Vue.js、React和AngularJS等框架编写，我们需要对其进行模拟执行并提取关键信息。

1.分析页面

我们首先需要分析目标页面，找出JS渲染的部分并正确定位到需要获取的数据和信息。我们需要找到JS代码的执行顺序、可能存在的加密方式和传递参数的方式等。

2.分析JS代码和参数

找到JS代码并对其进行分析后，我们需要利用Python模拟执行该JS代码并获取相应数据。我们需要确定参数的位置和值，并利用Python解析数据以获取需要的数据。

例如，当网站使用jQuery进行JS渲染时，我们可以找到与文件相关联的URL链接，发送AJAX请求获取HTML代码，并解析其中的数据。设置AJAX请求的参数、头部信息并发送请求，获取到HTML代码并用Python进行解析。

import requests
import re
from pprint import pprint
from pyquery import PyQuery as pqdef parse_page(html):doc = pq(html)return doc('title').text()def get_html(url, headers):res = requests.get(url, headers=headers)html = res.text# 解析html，过滤掉其他标签，只要标题return parse_page(html)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
url = 'https://www.baidu.com'
print(get_html(url, headers))

3.模拟Ajax请求或操作浏览器

如果网站的JS逆向需要进行Ajax请求的模拟发送，可以使用类似于request库之类的Python库来发送请求，或者使用Selenium模拟浏览器操作。

from selenium import webdriver
from selenium.webdriver.chromeoptions import Options#设置浏览器头和禁用图片加载
chrome_options = Options()
chrome_options.add_argument(‘–no-sandbox’)
chrome_options.add_argument(‘–disable-dev-shm-usage’)
chrome_options.add_argument(‘–disable-gpu’)
chrome_options.add_argument(‘–disable-setuid-sandbox’)
chrome_options.add_argument(‘–headless’)
chrome_options.add_argument(‘–disable-extensions’)#创建浏览器对象
browser = webdriver.Chrome(options=chrome_options)#通过js来控制点击“下一页”翻页
#这里假定下一页链接是’next’的，如果需要替换
#只需要这里用find_element_by_xpath方法查找并替换即可
js = “document.querySelector(‘a[href=“next”]’).click()”#在浏览器中打开链接
browser.get(url)#以固定的时间间隔执行JS方法
browser.execute_script(js)
time.sleep(10)#获取页面
html = browser.page_source#对页面进行解析
#…
#关闭浏览器
browser.quit()