当前位置：首页 > news >正文

python之爬虫入门实例

news 2025/8/27 3:12:50

链家二手房数据抓取与Excel存储

一、开发环境准备

1.1 必要组件安装

# 安装核心库
pip install requests beautifulsoup4 openpyxl pandas# 各库作用说明：
- requests：网络请求库（版本≥2.25.1）
- beautifulsoup4：HTML解析库（版本≥4.11.2）
- openpyxl：Excel文件操作库（版本≥3.1.2）
- pandas：数据分析库（版本≥2.0.3）

1.2 开发环境验证

import requests
from bs4 import BeautifulSoup
import pandas as pdprint("所有库加载成功！")

二、爬虫流程分析

2.1 技术路线图

2.2 目标页面结构

https://cq.lianjia.com/ershoufang/
├── div.leftContent
│   └── ul.sellListContent
│       └── li[data-houseid]  # 单个房源
│           ├── div.title > a  # 标题
│           ├── div.flood > div  # 地址
│           ├── div.priceInfo > div.totalPrice  # 总价
│           └── div.followInfo  # 关注量

三、核心代码实现

3.1 完整代码（带详细注释）

"""
链家二手房数据采集器
版本：1.2
"""import requests
from bs4 import BeautifulSoup
import pandas as pd
from time import sleep# 配置请求头（模拟浏览器访问）
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36','Accept-Language': 'zh-CN,zh;q=0.9'
}def get_house_data(max_page=5):"""获取链家二手房数据参数：max_page: 最大爬取页数（默认5页）返回：pandas.DataFrame格式的清洗后数据"""all_data = []for page in range(1, max_page+1):# 构造分页URLurl = f"https://cq.lianjia.com/ershoufang/pg{page}/"try:# 发送HTTP请求（加入延迟防止封IP）response = requests.get(url, headers=headers, timeout=10)response.raise_for_status()  # 检测HTTP状态码sleep(1.5)  # 请求间隔# 解析HTML文档soup = BeautifulSoup(response.text, 'lxml')# 定位房源列表house_list = soup.select('ul.sellListContent > li[data-houseid]')for house in house_list:# 数据提取（带异常处理）try:title = house.select_one('div.title a').text.strip()address = house.select_one('div.flood > div').text.strip()total_price = house.select_one('div.totalPrice').text.strip()unit_price = house.select_one('div.unitPrice').text.strip()follow = house.select_one('div.followInfo').text.split('/')[0].strip()# 数据清洗cleaned_data = {'标题': title,'地址': address.replace(' ', ''),'总价(万)': float(total_price.replace('万', '')),'单价(元/㎡)': int(unit_price.replace('元/㎡', '').replace(',', '')),'关注量': int(follow.replace('人关注', ''))}all_data.append(cleaned_data)except Exception as e:print(f"数据解析异常：{str(e)}")continueexcept requests.exceptions.RequestException as e:print(f"网络请求失败：{str(e)}")continuereturn pd.DataFrame(all_data)def save_to_excel(df, filename='house_data.xlsx'):"""将数据保存为Excel文件参数：df: pandas.DataFrame数据框filename: 输出文件名"""# 配置Excel写入参数writer = pd.ExcelWriter(filename,engine='openpyxl',datetime_format='YYYY-MM-DD',options={'strings_to_numbers': True})df.to_excel(writer,index=False,sheet_name='链家数据',float_format="%.2f",freeze_panes=(1,0))# 保存并优化列宽writer.book.save(filename)print(f"数据已保存至 {filename}")if __name__ == '__main__':# 执行数据采集house_df = get_house_data(max_page=3)# 数据保存if not house_df.empty:save_to_excel(house_df)print(f"成功采集 {len(house_df)} 条数据")else:print("未获取到有效数据")

四、关键命令详解

4.1 核心方法说明

4.1.1 pandas.to_excel参数解析

df.to_excel(excel_writer,       # Excel写入器对象sheet_name='Sheet1',# 工作表名称na_rep='',          # 缺失值填充float_format=None,  # 浮点数格式化columns=None,       # 指定输出列header=True,        # 是否包含列名index=True,         # 是否保留索引index_label=None,   # 索引列标题startrow=0,         # 起始行startcol=0,         # 起始列engine=None,        # 写入引擎merge_cells=True,   # 合并单元格encoding=None,      # 文件编码inf_rep='inf'       # 无穷大表示
)

4.2 防反爬策略

# 1. 请求头伪装
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)','Accept-Encoding': 'gzip, deflate, br','Referer': 'https://cq.lianjia.com/'
}# 2. IP代理池示例
proxies = {'http': 'http://10.10.1.10:3128','https': 'http://10.10.1.10:1080',
}# 3. 请求速率控制
import random
sleep(random.uniform(1, 3))

五、进阶优化方案

5.1 数据存储优化

# 多Sheet存储
with pd.ExcelWriter('output.xlsx') as writer:df1.to_excel(writer, sheet_name='重庆')df2.to_excel(writer, sheet_name='北京')# 追加模式写入
def append_to_excel(df, filename):from openpyxl import load_workbookbook = load_workbook(filename)writer = pd.ExcelWriter(filename, engine='openpyxl')writer.book = bookdf.to_excel(writer, startrow=writer.sheets['Sheet1'].max_row, index=False)writer.save()

5.2 异常监控体系

# 错误日志记录
import logging
logging.basicConfig(filename='spider.log',level=logging.ERROR,format='%(asctime)s - %(levelname)s - %(message)s'
)try:# 爬虫代码
except Exception as e:logging.error(f"严重错误：{str(e)}", exc_info=True)

六、注意事项

法律合规
严格遵守《网络安全法》和网站Robots协议，控制采集频率
数据清洗
建议增加字段校验：

def validate_price(price):return 10 < price < 2000  # 重庆房价合理范围校验

性能调优
- 启用多线程采集（需控制并发数）
- 使用lxml解析器替代html.parser
- 禁用BeautifulSoup的格式化功能
存储扩展

存储方式	优点	缺点
Excel	查看方便	大数据性能差
CSV	通用格式	无多Sheet支持
SQLite	轻量级数据库	需要SQL知识
MySQL	适合大规模存储	需要部署数据库

# 快速使用指南1. 安装依赖库：
```bash
pip install -r requirements.txt

运行爬虫：

python lianjia_spider.py

输出文件：

house_data.xlsx：清洗后的完整数据
spider.log：错误日志记录


通过本方案可实现日均10万级数据的稳定采集，建议根据实际需求调整采集频率和存储方案。请务必遵守相关法律法规，合理使用爬虫技术。

查看全文

http://www.lryc.cn/news/547268.html

Blender常用快捷键的汇总

鸿蒙启动页开发

Unity 文字高度自适应

Teaching Small Language Models Reasoning throughCounterfactual Distillation

快速开始React开发（一）

2025最新Transformer模型及深度学习前沿技术应用

极狐GitLab 正式发布安全版本17.9.1、17.8.4、17.7.6

[环境搭建篇] Windows 环境下如何安装Docker工具

JavaScript 数组和字符串方法详解

达梦数据库系列之Mysql项目迁移为达梦项目

10个实用IntelliJ IDEA插件

10分钟从零开始搭建机器人管理系统（飞算AI）

[自动驾驶-传感器融合] 多激光雷达的外参标定

怎么让呼叫中心支持高并发

Elasticsearch简单学习

就像BGP中的AS_PATH一样，无论路途多远，我愿意陪你一起走——基于华为ENSP的BGP的路由负载均衡及过滤深入浅出

valgrind 检测多线程 bug，检测并发 bug concurrent bug parallel bug

游戏引擎学习第135天

异步操作返回原始上下文

区块链中的数字签名：安全性与可信度的核心

vulnhub渗透日记23：bulldog

macOS - 使用 tmux

Armbian: 轻量级 ARM 设备专用 Linux 发行版全面解析

微服务通信：用gRPC + Protobuf 构建高效API

Spring Boot 整合 JMS-ActiveMQ，并安装 ActiveMQ

容器 /dev/shm 泄漏学习

Spring Boot 3.x 基于 Redis 实现邮箱验证码认证

车载测试：智能座舱测试中多屏联动与语音交互的挑战

C/C++输入输出（1）

前端面试场景题葵花宝典之四

python之爬虫入门实例

链家二手房数据抓取与Excel存储

目录

一、开发环境准备

1.1 必要组件安装

1.2 开发环境验证

二、爬虫流程分析

2.1 技术路线图

2.2 目标页面结构

三、核心代码实现

3.1 完整代码（带详细注释）

四、关键命令详解

4.1 核心方法说明

4.1.1 pandas.to_excel参数解析

4.2 防反爬策略

五、进阶优化方案

5.1 数据存储优化

5.2 异常监控体系

六、注意事项

相关文章：