当前位置: 首页 > news >正文

Python爬虫实战:获取笔趣阁图书信息,并做数据分析

注意:以下内容仅供技术研究,请遵守目标网站的robots.txt规定,控制请求频率避免对目标服务器造成过大压力!

1. 环境准备与反爬策略

python

import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import time
import random
from fake_useragent import UserAgent  # 需安装:pip install fake-useragent# 初始化随机UserAgent
ua = UserAgent()
headers = {'User-Agent': ua.random}# 代理IP池示例(需自行维护可用代理)
proxies = [{'http': 'http://123.45.67.89:8080'},{'http': 'http://112.114.96.34:3128'}
]

2. 爬虫核心代码(含分类遍历)

python

def fetch_book_info(base_url, max_pages=3):all_books = []# 第一步:获取所有分类链接try:response = requests.get(base_url, headers={'User-Agent': ua.random}, timeout=10)soup = BeautifulSoup(response.content.decode('gbk'), 'html.parser')  # 注意编码# 提取分类导航栏(示例选择器,需根据实际页面调整)category_links = {item.text: item['href'] for item in soup.select('.nav li a')[1:-1]  # 排除首尾非分类项}except Exception as e:print("获取分类失败:", e)return []# 第二步:遍历每个分类for category_name, category_url in category_links.items():print(f"正在抓取分类: {category_name}")for page in range(1, max_pages+1):# 构造分页URL(示例格式,需根据实际调整)page_url = f"{category_url}index_{page}.html" if page>1 else category_urltry:# 随机使用代理proxy = random.choice(proxies) if proxies else Nonepage_res = requests.get(page_url, he
http://www.lryc.cn/news/537185.html

相关文章:

  • 如何在Java EE中使用标签库?
  • 3天功能开发→3小时:通义灵码2.0+DEEPSEEK实测报告,单元测试生成准确率92%的秘密
  • STM32 Flash详解教程文章
  • ubuntu服务器部署
  • 小爱音箱控制手机和电视听歌的尝试
  • 问卷数据分析|SPSS实操之独立样本T检验
  • Linux 内核 IPoIB 驱动中 sysfs 属性冲突问题的分析与解决
  • 双ESP8266-01S通讯UDP配置
  • 【C】初阶数据结构5 -- 栈
  • 闭源大语言模型的怎么增强:提示工程 检索增强生成 智能体
  • C语言-------结构体(1)
  • org.apache.kafka.common.errors.TimeoutException
  • Ceph集群搭建2025(squid版)
  • DeepSeek从入门到精通:提示词设计的系统化指南
  • python后端调用Deep Seek API
  • 自有证书的rancher集群使用rke部署k8s集群异常
  • 【线性代数】1行列式
  • DeepSeek免费部署到WPS或Office
  • 数据结构 二叉树
  • 鸿蒙开发:熟知@BuilderParam装饰器
  • 光谱相机在天文学领域的应用
  • 不到1M的工具,使用起来非常丝滑!
  • 软考高级《系统架构设计师》知识点(二)
  • 深入解析操作系统控制台:阿里云Alibaba Cloud Linux(Alinux)的运维利器
  • 云原生AI Agent应用安全防护方案最佳实践(上)
  • Java Virtual Machine(JVM)
  • vue前端可视化大屏页面适配方案
  • Docker中安装MySql方法
  • 云轴科技ZStack+神州鲲泰,全面支持企业私有化部署DeepSeek模型
  • $ npx electron-forge import 一直报权限问题 resource busy or locked,