当前位置：首页 > news >正文

Python爬虫实战：批量下载亚马逊商品图片

news 2025/7/23 6:54:05

1. 引言

在电商数据分析、竞品调研或价格监控等场景中，爬取亚马逊商品图片是一项常见需求。然而，亚马逊（Amazon）作为全球最大的电商平台之一，具有严格的反爬机制，直接爬取可能会遇到IP封锁、验证码等问题。

本文将介绍如何使用Python爬虫技术批量下载亚马逊商品图片，涵盖以下内容：

目标分析：确定爬取亚马逊商品图片的策略
技术选型：选择合适的爬虫库（Requests、BeautifulSoup、Selenium等）
反爬绕过：设置合理的请求头、代理IP、延迟策略
图片下载：解析HTML并批量存储图片
完整代码实现：提供可运行的Python代码

2. 技术选型与准备工作

2.1 工具与库

Python 3.x（推荐3.8+）
Requests：发送HTTP请求获取网页内容
BeautifulSoup（bs4）：解析HTML，提取图片URL
Selenium（可选）：应对动态加载的页面
Fake UserAgent：随机生成User-Agent，减少被封锁风险
代理IP（可选）：防止IP被封

2.2 安装依赖

3. 爬取亚马逊商品页面的策略

亚马逊的反爬机制较为严格，直接使用**requests**可能会被拒绝访问。因此，我们需要：

模拟浏览器请求：设置合理的**User-Agent**和**Referer**
降低请求频率：避免短时间内高频访问
使用代理IP（可选）：防止单一IP被封锁
处理动态加载内容（可选）：部分图片可能由JavaScript加载，需用Selenium

4. 实现步骤

4.1 获取亚马逊商品页面

首先，我们尝试用**requests**获取商品页面的HTML。

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent# 设置随机User-Agent
ua = UserAgent()
headers = {'User-Agent': ua.random,'Accept-Language': 'en-US,en;q=0.9','Referer': 'https://www.amazon.com/'
}# 目标商品URL（示例：亚马逊上的某款手机）
url = "https://www.amazon.com/dp/B09G9FPHY6"  # 替换为目标商品URLtry:response = requests.get(url, headers=headers, timeout=10)response.raise_for_status()  # 检查请求是否成功print("成功获取页面！")
except requests.exceptions.RequestException as e:print(f"请求失败: {e}")exit()# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

4.2 解析图片URL

亚马逊的商品图片通常存储在**<img>**标签中，我们需要找到正确的**src**或**data-src**属性。

# 查找所有图片标签
image_tags = soup.find_all('img', {'class': 'a-dynamic-image'})# 提取图片URL
image_urls = []
for img in image_tags:src = img.get('src') or img.get('data-src')if src and 'http' in src:  # 确保是有效的URLimage_urls.append(src)print(f"找到 {len(image_urls)} 张图片")

4.3 下载图片并存储

使用**requests**下载图片并保存到本地文件夹。

import os# 创建存储目录
output_dir = "amazon_images"
os.makedirs(output_dir, exist_ok=True)# 下载图片
for i, img_url in enumerate(image_urls[:10]):  # 限制下载前10张try:img_data = requests.get(img_url, headers=headers, timeout=10).contentwith open(f"{output_dir}/image_{i+1}.jpg", 'wb') as f:f.write(img_data)print(f"下载成功: image_{i+1}.jpg")except Exception as e:print(f"下载失败 {img_url}: {e}")

4.4 完整代码

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import os# 代理配置
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"# 代理格式：http://用户名:密码@代理地址:端口
proxyMeta = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
proxies = {"http": proxyMeta,"https": proxyMeta,
}# 设置随机User-Agent
ua = UserAgent()
headers = {'User-Agent': ua.random,'Accept-Language': 'en-US,en;q=0.9','Referer': 'https://www.amazon.com/'
}# 目标商品URL
url = "https://www.amazon.com/dp/B09G9FPHY6"  # 替换为目标商品URL# 获取页面（带代理）
try:response = requests.get(url, headers=headers, proxies=proxies, timeout=10)response.raise_for_status()print("成功获取页面！")
except requests.exceptions.RequestException as e:print(f"请求失败: {e}")exit()# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')# 提取图片URL
image_tags = soup.find_all('img', {'class': 'a-dynamic-image'})
image_urls = []
for img in image_tags:src = img.get('src') or img.get('data-src')if src and 'http' in src:image_urls.append(src)print(f"找到 {len(image_urls)} 张图片")# 下载图片（带代理）
output_dir = "amazon_images"
os.makedirs(output_dir, exist_ok=True)for i, img_url in enumerate(image_urls[:10]):  # 限制下载前10张try:img_data = requests.get(img_url, headers=headers, proxies=proxies, timeout=10).contentwith open(f"{output_dir}/image_{i+1}.jpg", 'wb') as f:f.write(img_data)print(f"下载成功: image_{i+1}.jpg")except Exception as e:print(f"下载失败 {img_url}: {e}")

5. 进阶优化

使用Selenium处理动态加载内容

如果目标页面的图片是JavaScript动态加载的，可以使用Selenium模拟浏览器行为：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time# 设置无头浏览器
options = Options()
options.add_argument('--headless')  # 无界面模式
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(options=options)# 访问页面
driver.get(url)
time.sleep(3)  # 等待JS加载# 获取页面源码
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')# 后续解析和下载逻辑相同...
driver.quit()