当前位置: 首页 > news >正文

【python】正则表达式匹配数据


前言

使用正则表达式处理数据,可进行字符串匹配、提取和替换等操作。在python中,通过re库完成正则匹配的操作。


一、正则语法规则

1.常用匹配符

模式描述
^匹配字符串开头
$匹配字符串结尾
.匹配任意字符
*匹配前面的字符零次或多次
+匹配前面的字符一次或多次
?匹配前面的字符零次或一次
[]匹配括号中列举的任意一个字符
[^]匹配除了括号中列举的字符以外的任意一个字符

2.常用匹配函数

函数 描述
re.match从开始位置开始匹配,如果开头没有则无,语法: re.match(pattern, string)
re.search搜索整个字符语法: re.search(pattern, string)
re.findall搜索整个字符串,返回一个list 语法: re.findall (pattern, string)

3.常用修饰符

修饰符描述
re.I使匹配对大小写不敏感
re.M多行匹配,影响 ^ 和 $
re.S使 . 匹配包括换行在内的所有字符
re.U根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.L做本地化识别(locale-aware)匹配
re.X该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

二、正则表达式的应用

1.引入库

代码如下(示例):

import re

2.提取数据

代码如下(示例):

import  re
content = '''
<div>
<a href="https://baike.baidu.com/item/%E5%B9%BF%E4%B8%9C%E7%9C%81/132473" title="广东省">广东省介绍</a>
<a href="https://baike.baidu.com/item/%E6%B1%9F%E8%A5%BF%E7%9C%81/19438118" title="江西省">江西省介绍</a>
</div>
'''
# 获取链接文本内容
part = r'<a.*?>(.*?)</a>'
topic = re.findall(part,content)
print(topic )
# 获取完整链接内容
url_part = r'<a.*?href=.*?</a>'
urls = re.findall(url_part,content,re.I|re.S|re.M)
for i in urls:print(i)# 获取单个链接
res_url = r'href="(.*?)"'
url = re.findall(res_url,content,re.I|re.S|re.M)
print(url)
for i in url:print(i)

3.返回结果

['广东省介绍', '江西省介绍']
<a href="https://baike.baidu.com/item/%E5%B9%BF%E4%B8%9C%E7%9C%81/132473" title="广东省">广东省介绍</a>
<a href="https://baike.baidu.com/item/%E6%B1%9F%E8%A5%BF%E7%9C%81/19438118" title="江西省">江西省介绍</a>
['https://baike.baidu.com/item/%E5%B9%BF%E4%B8%9C%E7%9C%81/132473', 'https://baike.baidu.com/item/%E6%B1%9F%E8%A5%BF%E7%9C%81/19438118']
https://baike.baidu.com/item/%E5%B9%BF%E4%B8%9C%E7%9C%81/132473
https://baike.baidu.com/item/%E6%B1%9F%E8%A5%BF%E7%9C%81/19438118

在这里插入图片描述


http://www.lryc.cn/news/136987.html

相关文章:

  • 【C++】用Windows API在控制台实现选择选项
  • Golang 批量执行/并发执行
  • 使用go语言、Python脚本搭建一个简单的chatgpt服务网站。
  • 基于java会议室预约系统设计与实现
  • Ubuntu18.04 交叉编译curl-7.61.0
  • Android相机-HAL子系统
  • PostgreSQL-研究学习-介绍与安装
  • 【Unity细节】Unity制作汽车时,为什么汽车会被弹飞?为什么汽车会一直抖动?
  • Android初学之android studio运行java/kotlin程序
  • 使用自定义 C ++类扩展 TorchScript
  • UITableView自定义TableHeader和TableFooter
  • 【TA 挖坑03】雾效 | 透光材质 | Impostor | 厚度转球谐
  • 案例-基于MVC和三层架构实现商品表的增删改查
  • Java——一个简单的计算器程序
  • 自定义滑动到底部触发指令,elementUI实现分页下拉框
  • 【Windows 常用工具系列 10 -- linux ssh登录脚本输入密码】
  • C#的索引器
  • 软件配置安装(破解)--- maven下载配置
  • python解析小说
  • SQL Server 执行报错: “minus“ 附近有语法错误。
  • kali linux查看局域网下所有IP,并对指定IP攻击
  • 基于QCC_BES 平台的LMS自适应滤波算法实现
  • 大疆飞卡30运载无人机技术分享
  • 单片机的串口通信
  • 【C/C++】STL学习所得
  • leetcode几个数组题
  • 【LeetCode】模拟实现FILE以及认识缓冲区
  • 【Terraform学习】使用 Terraform 将 EC2 实例作为 Web 服务器启动(Terraform-AWS最佳实战学习)
  • WebGL 变量uniform、gl.getUniformLocation、gl.uniform4f及其同族函数相关
  • 【Visual Studio】生成.i文件