当前位置: 首页 > news >正文

Python爬虫第一课:爬取HTML静态网页小说章节

Python-HTML-爬虫:爬取小说章节

  • 使用 requests 库爬取HTML网页内容
  • 使用 from lxml import etree 解析html 网页标签及内容

  • 需要一定的 html css JavaScript基础

使用 requests 库爬取HTML网页内容


import requests#使用requests库获取网页内容
# 爬取 地址为 https://xx/showchapter/906233.html 的网页内容
# 注意,1单独爬取静态网页,2动态网页需要使用selenium
# 请熟练使用 requests库,
# 普法:政府类网站不能爬,公民信息不能保存,大公司网站不要爬,容易被追踪,涉及版权知识产权的信息不要爬,容易惹纠纷。
# 爬取 小说章节
if __name__ == '__main__':url = "https://xx/showchapter/906233.html"req = requests.get(url)print(req.text)

使用 from lxml import etree 解析html 网页标签及内容

  • 使用浏览器自带的开发者工具 或者对着浏览器 按键F12 分析页面上html的元素 进行定位 要提取的代码块内容

  • 如图

  • 代码示列


import requestsfrom lxml import etree#使用requests库获取网页内容
# 爬取 地址为 https://xxx/showchapter/906233.html 的网页内容
# 注意,1单独爬取静态网页,2动态网页需要使用selenium
# 请熟练使用 requests库,
# 普法:政府类网站不能爬,公民信息不能保存,大公司网站不要爬,容易被追踪,涉及版权知识产权的信息不要爬,容易惹纠纷。
# 爬取 小说章节
if __name__ == '__main__':url = "https://xxx/showchapter/906233.html"req = requests.get(url)# 使用lxml解析HTML内容html = etree.HTML(req.text)# 提取<li class="col-4">下的<a>标签内容# 注意:class属性中有空格,需要使用contains函数来匹配li_elements = html.xpath('//li[contains(@class, "col-4")]')for li in li_elements:# 查找每个li元素中的a标签a_tags = li.xpath('.//a')for a in a_tags:# 输出a标签的文本内容print(a.text)
http://www.lryc.cn/news/625440.html

相关文章:

  • 【教程】在 VMware Windows 虚拟机中使用 WinPE 进行离线密码重置或取证操作
  • CT Micro’s New HV Photo-MOSFET Relay Optocouplers
  • github 上传代码步骤
  • JWT通俗易懂讲解
  • 什么是强化学习
  • 【图像算法 - 18】慧眼辨良莠:基于深度学习与OpenCV的麦田杂草智能识别检测系统(附完整代码)
  • 从 SGD 到梯度累积:Epoch、Batch、Step 的关系全解析
  • 边缘智能体:Go编译在医疗IoT设备端运行轻量AI模型(上)
  • Ansible 角色管理指南
  • Ansible 角色管理
  • Apache IoTDB(4):深度解析时序数据库 IoTDB 在Kubernetes 集群中的部署与实践指南
  • Redisson 分布式锁核心机制解析
  • 2025年09月计算机二级MySQL选择题每日一练——第一期
  • 寻找旋转排序数组中的最小值
  • 【C语言强化训练16天】--从基础到进阶的蜕变之旅:Day7
  • web开发,在线%服装商城开发demo,基于html,css,jquery,asp.net,webform,sqlserver数据库
  • hadoop技术栈(九)Hbase替代方案
  • 20250819 强连通分量,边双总结
  • k8s运维实践:高可用Redis Cluster(三主三从)与Proxy部署方案
  • RadioIrqProcess函数详细分析与流程图
  • 【实时Linux实战系列】基于实时Linux的物联网系统设计
  • “道法术器” 思维:解析华为数字化转型
  • 企业知识管理革命:RAG系统在大型组织中的落地实践
  • 服务器如何隐藏端口才能不被扫描?
  • 08.19总结
  • 17.web api 8
  • C++ 默认参数深度解析【C++每日一学】
  • 0.开篇简介
  • 把 AI 天气预报塞进「打火机」——基于时空扩散模型的微型气象站
  • 项目管理.管理理念学习