当前位置: 首页 > news >正文

正则表达式练习

正则表达式练习

  • 工具
  • 目的
  • 代码
  • 运行结果

工具

pycharm

目的

'''
https://www.77xsw.cc/fenlei/1_1/:第一页的网址
https://www.77xsw.cc/fenlei/1_2/:第二页的网址
...
https://www.77xsw.cc/fenlei/1_10/:第十页的网址
'''

代码

import requests
import re
import jsonnovel_list = []for i in range(1,11):# 请求网址url = 'https://www.77xsw.cc/fenlei/1_' + str(i) + '/'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'}# 发送请求response = requests.get(url, headers=headers)# print(response.text)# 数据处理 确定正则表达式规则时,看抓取到的没有美化的响应结果data = response.text# 用中文不能匹配中文的标点符号# rule = '<span class="sp_2"><a href="(.*?)".*?title="[\u4e00-\u9fa5]*">([\u4e00-\u9fa5]*?)</a></span><span class="sp_3">'  # not# rule = '<span class="sp_2"><a href="(.*?)".*?title=".*?">(.*?)</a></span><span class="sp_3">'  # okrule = '<span class="sp_2"><a href="(.*?)".*?>(.*?)</a></span><span class="sp_3">'result = re.findall(rule,data)  # 返回值为多个匹配结果组成的列表for novel in result:novel_list.extend(result)# print(novel_list)
novel_tuple = tuple(novel_list)  # 去重
novel_dict = dict([i[1], i[0]] for i in novel_tuple)  # 转为字典
print(novel_dict,len(novel_dict))  # 一页40个,10页应该有400个,结果为397个,含有重复的
# 保存数据 json格式
with open('novel.json', 'w', encoding='utf8') as f:json.dump(novel_dict,f,indent=2,ensure_ascii=False)

运行结果

见资源

http://www.lryc.cn/news/122126.html

相关文章:

  • leetcode做题笔记73矩阵置零
  • 【2.1】Java微服务: Nacos的使用
  • vue安装及环境配置
  • java使用正则表达式时遇到的问题
  • Git介绍及常用命令详解
  • 赛事 | 第25届中国机器人及人工智能大赛全国决赛榜单发布
  • JavaScript+Asp.Net MVC5同时下载多个文件
  • 如何实现前后端分离-----前端笔记
  • Ceph入门到精通-分布式存储产品的测试实践
  • 【java】设计模式——单例模式
  • 【编织时空一:探究顺序表与链表的数据之旅】
  • Tesseract用OpenCV进行文本检测
  • XLua案例学习
  • Linux:Shell编程之免交互
  • 最强自动化测试框架Playwright(18)- 执行js脚本
  • 阿里云云主机_ECS云服务器_轻量_GPU_虚拟主机详解
  • [QT编程系列-41]:Qt QML与Qt widget 深入比较,快速了解它们的区别和应用场合
  • springboot 使用zookeeper实现分布式锁
  • ViewUI表格Table嵌套From表单-动态校验数据合法性的解决方法
  • 服务器安装Tomcat
  • 【Apollo】自动驾驶的平台背景,平台介绍
  • docker 安装与配置
  • Titanic--细节记录三
  • k8s-----集群调度
  • 01-Spark环境部署
  • HOT86-单词拆分
  • 开源数据集分类汇总(医学,卫星,分割,分类,人脸,农业,姿势等)
  • Linux:Firewalld防火墙
  • mysql死锁;锁表排查
  • YAMLException: java.nio.charset.MalformedInputException: Input length = 1