当前位置：首页 > news >正文

使用PHP爬虫获取1688商品分类：实战案例指南

news 2025/8/26 17:43:16

在电商领域，商品分类信息是商家进行市场调研、选品分析和竞争情报收集的重要基础。1688作为国内领先的B2B电商平台，提供了丰富且详细的商品分类数据。通过PHP爬虫技术，我们可以高效地获取这些分类信息，为商业决策提供有力支持。

一、为什么选择PHP爬虫？

PHP是一种广泛使用的服务器端脚本语言，特别适合用于Web开发和网络爬虫。它具有强大的网络请求和HTML解析能力，能够轻松实现从网页中提取数据的功能。

二、准备工作

（一）环境搭建

确保你的PHP开发环境已经安装了以下必要的库：

cURL：用于发送HTTP请求。
DOMDocument：用于解析HTML页面。

可以通过以下代码检查是否安装了cURL扩展：

if (!function_exists('curl_init')) {die('cURL扩展未安装');
}

（二）目标网站分析

在开始爬虫之前，需要对目标网站（1688商品分类页面）进行分析，了解页面结构和数据存储方式。打开浏览器的开发者工具（F12），查看商品分类页面的HTML结构，确定需要提取的数据字段，如分类名称、分类链接等。

三、编写爬虫代码

（一）获取商品分类信息

以下是使用PHP和cURL、DOMDocument库获取1688商品分类信息的代码示例：

<?php
function get_product_categories($url) {$ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3');$output = curl_exec($ch);if (curl_errno($ch)) {echo 'Error:' . curl_error($ch);curl_close($ch);return;}curl_close($ch);$dom = new DOMDocument();@$dom->loadHTML($output);$xpath = new DOMXPath($dom);$categories = [];$categoryItems = $xpath->query("//div[@class='category-item']"); // 根据实际页面结构调整选择器foreach ($categoryItems as $item) {$categoryName = $xpath->evaluate("string(.//a[@class='category-name'])", $item);$categoryLink = $xpath->evaluate("string(.//a[@class='category-name']/@href)", $item);$categories[] = ['name' => $categoryName,'link' => $categoryLink];}return $categories;
}$url = "https://www.1688.com";
$categories = get_product_categories($url);if ($categories) {foreach ($categories as $category) {echo "分类名称: " . $category['name'] . "\n";echo "分类链接: " . $category['link'] . "\n";echo "----------------------\n";}
} else {echo "分类信息获取失败";
}
?>

（二）处理和存储数据

获取到的商品分类数据可以保存到CSV文件中，方便后续的数据分析和处理：

<?php
function save_to_csv($data, $filename) {$file = fopen($filename, 'w');fputcsv($file, ['分类名称', '分类链接']);foreach ($data as $category) {fputcsv($file, $category);}fclose($file);echo '数据已保存到CSV文件中。';
}save_to_csv($categories, 'alibaba_categories.csv');
?>