当前位置：首页 > news >正文

Python爬虫入门指南：从零开始抓取数据

news 2025/7/10 20:03:12

Python爬虫入门指南：从零开始抓取数据

引言

在大数据时代，数据是新的石油。而爬虫作为获取数据的重要手段，受到了越来越多的关注。Python作为一门强大的编程语言，其简洁易用的特性使得它成为爬虫开发的首选语言。本篇文章将带你从零开始，逐步掌握Python爬虫的基本知识和实战技巧。

什么是爬虫？

爬虫，全称网络爬虫（Web Spider），是一种按照一定规则自动抓取万维网信息的程序或者脚本。它模拟人类在浏览器中的操作，自动访问网页并提取所需的数据。

爬虫的应用场景

数据采集：如抓取电商网站的商品信息、抓取社交媒体的用户评论等。
搜索引擎：搜索引擎的蜘蛛爬虫会抓取网页内容，建立索引。
监测服务：如监测网站的可用性、价格变动等。

爬虫的基本原理

爬虫的工作原理可以简单概括为以下几个步骤：

发送请求：模拟浏览器向服务器发送HTTP请求。
获取响应：接收服务器返回的HTML页面。
解析数据：使用解析库提取所需的数据。
存储数据：将数据存储到本地或数据库中。

环境配置

在开始之前，你需要确保已经安装了Python环境。推荐使用Anaconda，它集成了Python和常用的科学计算库。

安装必要的库

requests：用于发送HTTP请求。
BeautifulSoup：用于解析HTML文档。
lxml 或 html.parser：解析器。

pip install requests beautifulsoup4

第一个爬虫案例

目标：抓取百度首页的标题

1. 发送请求

使用requests库发送GET请求获取百度首页的HTML内容。

import requestsurl = 'https://www.baidu.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)

2. 获取响应

检查响应状态码，确保请求成功。

if response.status_code == 200:print('请求成功')
else:print('请求失败，状态码:', response.status_code)

3. 解析数据

使用BeautifulSoup解析HTML文档，并提取标题。

from bs4 import BeautifulSoupsoup = BeautifulSoup(response.text, 'lxml')
title = soup.title.string
print('百度首页的标题是:', title)

4. 完整代码

import requests
from bs4 import BeautifulSoupurl = 'https://www.baidu.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)if response.status_code == 200:soup = BeautifulSoup(response.text, 'lxml')title = soup.title.stringprint('百度首页的标题是:', title)
else:print('请求失败，状态码:', response.status_code)

进阶：抓取带有AJAX请求的网页

有些网站的内容是通过AJAX动态加载的，这种情况下，requests可能无法获取全部内容。这时，我们可以使用Selenium来模拟浏览器行为。

安装Selenium

pip install selenium

配置浏览器驱动

下载对应浏览器的驱动，例如ChromeDriver，并将其路径加入系统PATH。

案例：抓取百度翻译的结果

from selenium import webdriverdriver = webdriver.Chrome()
driver.get('https://fanyi.baidu.com/')# 等待页面加载完成
driver.implicitly_wait(10)# 输入要翻译的文本
input_box = driver.find_element_by_id('baidu_translate_input')
input_box.send_keys('Hello, World!')# 点击翻译按钮
translate_button = driver.find_element_by_class_name('translate-btn')
translate_button.click()# 等待翻译结果加载
driver.implicitly_wait(10)# 获取翻译结果
result = driver.find_element_by_class_name('target-input')
print('翻译结果:', result.text)driver.quit()