当前位置：首页 > news >正文

API 接口接入开发全演示：淘宝商品数据实时抓取

news 2025/8/13 8:18:40

在电商数据分析、价格监控和竞品研究等场景中，实时获取淘宝商品数据具有重要价值。本文将全面演示完整演示淘宝 API 接口的接入开发与接入过程，包括环境搭建、签名生成、请求发送、数据解析等关键步骤，帮助开发者快速实现淘宝商品数据的实时抓取功能。

一、淘宝接入准备

1. 开发者账号注册

首先需要访问完成账号注册调用 API 接口。

2. 应用创建与授权

在控制台创建应用，获取关键凭证：

Api Key：唯一标识
Api Secret：应用的密钥，用于签名生成
注意：部分高级接口需要单独申请权限

3. 接口选择

本次演示将使用以下两个核心接口：

taobao.item.get：获取单个商品的详细信息
taobao.items.search：根据关键词搜索商品列表

二、API 调用核心机制

淘宝 API 采用 REST 风格设计，基于 HTTP/HTTPS 协议通信，主要特点包括：

请求方式：主要使用 GET 方法
数据格式：默认返回 JSON 格式
签名机制：所有请求必须包含合法签名
公共参数：所有接口都需要包含的通用参数
业务参数：各接口特有的参数

其中，签名机制是确保 API 调用安全的关键，其生成规则如下：

将所有请求参数（包括公共参数和业务参数）按参数名排序
拼接成 "参数名参数值" 的字符串
在字符串首尾加上 Api Secret
进行 MD5 加密并转为大写

三、完整开发实现

下面将通过 Python 实现淘宝商品数据的实时抓取功能，包含 API 客户端封装、单商品查询和商品搜索三个主要功能。

import requests
import time
import hashlib
import json
from urllib.parse import urlencode
import logging
from datetime import datetime# 配置日志
logging.basicConfig(level=logging.INFO,format='%(asctime)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)class TaobaoProductCrawler:"""淘宝商品数据抓取工具类"""def __init__(self, app_key, app_secret, timeout=10):"""初始化淘宝API客户端:param app_key: 应用App Key:param app_secret: 应用App Secret:param timeout: 请求超时时间"""self.app_key = app_keyself.app_secret = app_secretself.timeout = timeoutself.api_url = "http://gw.api.taobao.com/router/rest"# 记录API调用次数和时间，用于控制频率self.call_records = []def _generate_sign(self, params):"""生成API请求签名:param params: 请求参数字典:return: 生成的签名字符串"""# 1. 按参数名ASCII码升序排序sorted_params = sorted(params.items(), key=lambda x: x[0])# 2. 拼接参数sign_str = self.app_secretfor key, value in sorted_params:sign_str += f"{key}{value}"sign_str += self.app_secret# 3. MD5加密并转为大写sign = hashlib.md5(sign_str.encode('utf-8')).hexdigest().upper()return signdef _check_rate_limit(self):"""检查API调用频率限制，确保不超过每秒10次调用"""now = time.time()# 保留最近1秒内的调用记录self.call_records = [t for t in self.call_records if now - t < 1]# 如果1秒内调用超过10次，等待到下一秒if len(self.call_records) >= 10:sleep_time = 1 - (now - self.call_records[0])if sleep_time > 0:time.sleep(sleep_time)# 重新清理记录self.call_records = [t for t in self.call_records if time.time() - t < 1]self.call_records.append(time.time())def _api_request(self, method, params):"""发送API请求的通用方法:param method: API方法名:param params: 业务参数字典:return: API返回的JSON数据"""# 检查调用频率self._check_rate_limit()# 构建公共参数public_params = {"app_key": self.app_key,"method": method,"format": "json","v": "2.0","sign_method": "md5","timestamp": time.strftime("%Y-%m-%d %H:%M:%S")}# 合并参数all_params = {**public_params,** params}# 生成签名all_params["sign"] = self._generate_sign(all_params)try:# 发送请求response = requests.get(self.api_url,params=all_params,timeout=self.timeout)# 解析响应result = json.loads(response.text)# 处理错误响应if "error_response" in result:error = result["error_response"]logger.error(f"API错误: {error['msg']} (错误码: {error['code']})")return Nonereturn resultexcept requests.exceptions.Timeout:logger.error("请求超时")return Noneexcept requests.exceptions.ConnectionError:logger.error("网络连接错误")return Noneexcept json.JSONDecodeError:logger.error("响应数据解析失败")return Noneexcept Exception as e:logger.error(f"请求发生异常: {str(e)}")return Nonedef get_product_detail(self, num_iid, fields=None):"""获取单个商品的详细信息:param num_iid: 商品数字ID:param fields: 需要返回的字段列表，None则返回默认字段:return: 商品详情字典"""logger.info(f"获取商品详情: {num_iid}")# 默认返回的字段default_fields = "num_iid,title,pict_url,price,orginal_price,desc," \"sales,stock,shop_name,province,city,item_url"params = {"num_iid": num_iid,"fields": fields if fields else default_fields}result = self._api_request("taobao.item.get", params)if result and "item_get_response" in result:return result["item_get_response"]["item"]return Nonedef search_products(self, keyword, page=1, page_size=20, sort="sale_desc"):"""搜索商品:param keyword: 搜索关键词:param page: 页码:param page_size: 每页数量:param sort: 排序方式，sale_desc(销量降序)，price_asc(价格升序)等:return: 商品列表和分页信息"""logger.info(f"搜索商品: {keyword}, 第{page}页")params = {"q": keyword,"page_no": page,"page_size": page_size,"sort": sort}result = self._api_request("taobao.items.search", params)if result and "items_search_response" in result:return {"items": result["items_search_response"]["items"]["item"],"total": result["items_search_response"]["total_results"],"page": page,"page_size": page_size}return Nonedef batch_get_products(self, num_iids, fields=None):"""批量获取商品信息:param num_iids: 商品ID列表:param fields: 需要返回的字段:return: 商品列表"""if not num_iids:return []logger.info(f"批量获取商品信息: {len(num_iids)}个商品")products = []# 每次最多获取20个，淘宝API限制batch_size = 20for i in range(0, len(num_iids), batch_size):batch_ids = num_iids[i:i+batch_size]# 调用单个商品接口批量获取for num_iid in batch_ids:product = self.get_product_detail(num_iid, fields)if product:products.append(product)# 避免触发频率限制time.sleep(0.1)return productsif __name__ == "__main__":# 配置你的App Key和App SecretAPP_KEY = "your_app_key"APP_SECRET = "your_app_secret"# 初始化爬虫crawler = TaobaoProductCrawler(APP_KEY, APP_SECRET)try:# 示例1: 获取单个商品详情product_id = "570649948453"  # 示例商品IDproduct_detail = crawler.get_product_detail(product_id)if product_detail:print("\n===== 单个商品详情 =====")print(f"商品ID: {product_detail['num_iid']}")print(f"标题: {product_detail['title']}")print(f"价格: {product_detail['price']}元")print(f"原价: {product_detail['orginal_price']}元")print(f"销量: {product_detail['sales']}")print(f"库存: {product_detail['stock']}")print(f"店铺: {product_detail['shop_name']}")print(f"地址: {product_detail['province']}-{product_detail['city']}")# 示例2: 搜索商品keyword = "笔记本电脑"search_result = crawler.search_products(keyword, page=1, page_size=10)if search_result:print("\n===== 商品搜索结果 =====")print(f"搜索关键词: {keyword}")print(f"总结果数: {search_result['total']}")print(f"当前页: {search_result['page']}, 每页数量: {search_result['page_size']}")print("\n前5个商品:")for i, item in enumerate(search_result['items'][:5]):print(f"{i+1}. {item['title']} - 价格: {item['price']}元 - 销量: {item['sales']}")# 示例3: 批量获取商品batch_ids = ["570649948453", "614894756623", "609876543210"]  # 示例商品ID列表batch_products = crawler.batch_get_products(batch_ids)if batch_products:print("\n===== 批量获取商品 =====")for product in batch_products:print(f"{product['title']} - 价格: {product['price']}元")# 保存结果到文件if product_detail:with open(f"product_{product_id}_{datetime.now().strftime('%Y%m%d%H%M%S')}.json", "w", encoding="utf-8") as f:json.dump(product_detail, f, ensure_ascii=False, indent=2)logger.info("商品详情已保存到文件")except Exception as e:logger.error(f"程序运行出错: {str(e)}")

四、代码功能解析

1. 核心类设计

TaobaoProductCrawler类封装了所有淘宝 API 调用相关的功能，主要包括：

初始化方法：接收 Api Key 和 Api Secret，设置超时时间
签名生成：_generate_sign方法实现淘宝 API 的签名算法
频率控制：_check_rate_limit方法确保 API 调用不超过频率限制
通用请求：_api_request方法封装了所有 API 请求的公共逻辑

2. 主要功能方法

get_product_detail：获取单个商品的详细信息，可指定需要返回的字段
search_products：根据关键词搜索商品，支持分页和排序
batch_get_products：批量获取多个商品的信息，内部处理了 API 调用限制

3. 错误处理与日志

代码实现了完善的错误处理机制，包括：

网络超时和连接错误处理
API 返回错误信息解析
详细的日志记录，便于调试和监控

五、使用与扩展建议

1. 基础使用步骤

替换代码中的APi_KEY和APi_SECRET为你自己的应用凭证
根据需求调用相应的方法：
- 单个商品查询：get_product_detail(product_id)
- 商品搜索：search_products(keyword)
- 批量查询：batch_get_products([id1, id2, ...])