当前位置: 首页 > news >正文

Python爬虫康复训练——笔趣阁《神魂至尊》

还是话不多说,很久没写爬虫了,来个bs4康复训练爬虫,正好我最近在看《神魂至尊》,爬个txt文件下来看看

直接上代码

"""
神魂至尊网址-https://www.bqgui.cc/book/1519/
"""
import requests
from bs4 import BeautifulSoup
import osA=[]#存储章节标题
B=[]#存储章节链接
url='https://www.bqgui.cc/book/1519/'
header={'Referer':'https://www.bqgui.cc/s?q=%E7%A5%9E%E9%AD%82%E8%87%B3%E5%B0%8A','Cookie':'Hm_lvt_52624d0257fe48ed9dea61ff01fa3417=1720163550; HMACCOUNT=79B595C42B32BA19; hm=9a7ca0f0fe759c15c8c93eed6eb59f86; Hm_lpvt_52624d0257fe48ed9dea61ff01fa3417=1720163795','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}
reponse = requests.get(url,headers=header)
#print(reponse.text)
html = BeautifulSoup(reponse.text,'lxml')
htmls = html.select('div.listmain dl dd a')
for a in htmls:# 检查a的文本内容中是否包含特定字符串if '<<---展开全部章节--->>' not in a.text:# 如果不包含,则添加到列表A和B中A.append(a.text)B.append('https://www.bqgui.cc/' + a['href'])
for j in B:urls =jheaders={'Cookie':'Hm_lvt_52624d0257fe48ed9dea61ff01fa3417=1720163550; HMACCOUNT=79B595C42B32BA19; hm=9a7ca0f0fe759c15c8c93eed6eb59f86; Hm_lpvt_52624d0257fe48ed9dea61ff01fa3417=1720164854','Referer':'https://www.bqgui.cc/book/1519/','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'}reponses = requests.get(urls,headers=headers)lxml = BeautifulSoup(reponses.text,'lxml')lxmls = lxml.select('div.Readarea.ReadAjax_content')for k in lxmls:#print(k.text)for l in A:directory = '神魂至尊'if not os.path.exists(directory):os.makedirs(directory)with open(f'{'神魂至尊'}/{l}','a')as f:f.write(k.text + '\n')

效果图

 

http://www.lryc.cn/news/392107.html

相关文章:

  • Kaptcha验证码
  • Rufus 制作启动盘 | 便携的工作空间
  • python函数参数
  • 深入理解 XML 和 HTML 之间的区别
  • 代码随想录算法训练营第四十四天|188.买卖股票的最佳时机IV、309.最佳买卖股票时机含冷冻期、714.买卖股票的最佳时机含手续费
  • YOLOv8改进 添加CVPR2024 PKINet中注意力机制CAAttention
  • 油猴Safari浏览器插件:Tampermonkey for Mac 下载
  • 如何在Vue中添加事件监听器
  • 软设之UML图中的用例图
  • 弹性伸缩高性能计算服务一一黑石裸金属服务器
  • 欢乐钓鱼大师攻略:西沙群岛攻略,内置自动辅助云手机!
  • Apipost接口测试工具的原理及应用详解(六)
  • 矩阵的奇异值(Singular Values)
  • 清空flowable的表定义的相关表
  • Tailwind CSS 在vue里 的使用
  • 【人工智能】--强化学习(2.0)
  • 跟着峰哥学java 微信小程序 第二天 封装ES7 + 后端工作
  • QT学习(6)——QT中的定时器事件,两种实现方式;事件的分发event,事件过滤器
  • ASP.NET Core 6.0 使用 Action过滤器
  • Java 并发集合:CopyOnWrite 写时复制集合介绍
  • Linux 查看修改系统时间| date -s
  • 数据库MySQL学习笔记
  • 四端口千兆以太网交换机与 SFP 扩展功能
  • Renderless 思想正在影响前端开发
  • maven 打包执行配置(对maven引用的包或者丢进去的包都包含在里面)打成jar包
  • Python酷库之旅-第三方库Pandas(004)
  • 天猫超市卡怎么用
  • ai智能语音机器人电销系统:让销售更快速高效
  • Redis 中的通用命令(命令的返回值、复杂度、注意事项及操作演示)
  • 【Hive实战】 HiveMetaStore的指标分析