当前位置：首页 > news >正文

如何设置Python爬虫的User-Agent？

news 2025/8/23 23:59:14

在Python爬虫中设置User-Agent是模拟浏览器行为、避免被目标网站识别为爬虫的重要手段。User-Agent是一个HTTP请求头，用于标识客户端软件（通常是浏览器）的类型和版本信息。通过设置合适的User-Agent，可以提高爬虫的稳定性和成功率。

以下是几种常见的方法来设置Python爬虫中的User-Agent：

1. 使用`requests`库设置`User-Agent`

requests库是Python中最常用的HTTP请求库之一，它允许在发送请求时通过headers参数设置请求头，包括User-Agent。

示例代码：

import requests# 目标URL
url = "https://example.com"# 设置请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}# 发送GET请求
response = requests.get(url, headers=headers)# 检查响应状态
if response.status_code == 200:print("请求成功")print(response.text)
else:print(f"请求失败，状态码: {response.status_code}")

2. 使用`BeautifulSoup`和`requests`设置`User-Agent`

如果你使用BeautifulSoup来解析HTML内容，同样需要通过requests库发送请求，并设置User-Agent。

示例代码：

import requests
from bs4 import BeautifulSoup# 目标URL
url = "https://example.com"# 设置请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}# 发送GET请求
response = requests.get(url, headers=headers)# 检查响应状态
if response.status_code == 200:# 解析HTML内容soup = BeautifulSoup(response.text, 'html.parser')print(soup.prettify())
else:print(f"请求失败，状态码: {response.status_code}")

3. 使用`Scrapy`框架设置`User-Agent`

如果你使用Scrapy框架来构建爬虫，可以在settings.py文件中全局设置User-Agent，或者在每个请求中动态设置。

全局设置`User-Agent`（在`settings.py`中）：

# settings.py
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

动态设置`User-Agent`（在爬虫中）：

import scrapyclass ExampleSpider(scrapy.Spider):name = "example"start_urls = ["https://example.com"]def start_requests(self):for url in self.start_urls:yield scrapy.Request(url=url, callback=self.parse, headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"})def parse(self, response):# 解析响应内容self.logger.info("成功获取页面")

4. 使用随机`User-Agent`

为了避免被目标网站识别出规律性请求，可以使用随机的User-Agent。可以通过fake_useragent库生成随机的User-Agent。

安装`fake_useragent`库：

pip install fake_useragent

示例代码：

from fake_useragent import UserAgent
import requests# 创建UserAgent对象
ua = UserAgent()# 目标URL
url = "https://example.com"# 设置随机User-Agent
headers = {"User-Agent": ua.random
}# 发送GET请求
response = requests.get(url, headers=headers)# 检查响应状态
if response.status_code == 200:print("请求成功")print(response.text)
else:print(f"请求失败，状态码: {response.status_code}")