当前位置: 首页 > news >正文

丘一丘正则表达式

正则表达式(regular expression,regex,RE)

  • 正则表达式是一种用来简洁表达一组字符串的表达式
  • 正则表达式是一种通用的字符串表达框架
  • 正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具
  • 正则表达式可以用来判断某字符串的特征归属

正则表达式常用操作符

操作符说明实例
.表示任意单个字符py. 可以匹配pyc,pyy,py!等等
[ ]字符集,对单个字符给出取值范围[abc]可以匹配a或b或c;[0-9a-zA-z\_]可以匹配一个数字、一个字母或者一个下划线
[^ ]非字符集,对单个字符给出排除范围[^abc]可以匹配非a或非b或非c的单个字符
*前一个字符0次或多次扩展abc* 可以匹配ab、abc、abcc、abccc等等
+前一个字符的1次或多次扩展abc+可以匹配abc、abcc、abccc等等
?前一个字符0次或1次扩展abc?可以匹配ab、abc
|左右表达式任意一个abc|def表示abc、def
{m}扩展前一个字符m次ab{2}c匹配abbc
{m,n}扩展前一个字符m至n次数(含n)ab{1,2}c可以匹配abc、abbc
^匹配字符串开头^abc表示abc且在一个字符串的开头,^\d表示必须以数字开头
$匹配字符串结尾abc表示abc且在一个字符串的结尾、\d$白哦是必须以数字结尾
( )分组标记,内部只能使用|操作符(abc|def)表示abc、def
\d可以匹配一个数字,相当于[0-9]\d{3}表示匹配3个数字,如010
\w可以匹配一个字母或者数字或者下划线,相当于[a-zA-Z0-9_]\w\w\d可以匹配'py3'
\s可以匹配一个空格(也包括Tab等空白字符)\s+表示至少有一个空格,如' '、' '

精确匹配

在正则表达式中,如果直接给出字符,就是精确匹配

  • 'pyt' 匹配'pyt'
  • '00\d' 可以匹配'007'
  • '\w\d' 可以匹配'!5'
  • 'ye.' 可以匹配'yes'
  • '(P|p)python' 可以匹配'Python'、'python'

高阶精确匹配,经典实例

  • ^[A-Za-z]+$ 匹配由26个英文字母组成的字符串,如'abrg'、'abgsfsfga'
  • [a-zA-Z\_][0-9a-zA-Z\_]* 可以匹配由字母或者下划线开头、后接任意一个由字母、数字或者下划线组成的字符串,也就是python的合法变量
  • ^-?\d+$ 匹配整数形式的字符串
  • ^[0-9][1-9][0-9]$ 匹配正整数形式的字符串
  • [1-9]\d{5} 中国境内邮政编码,6位
  • [\u4e00-\u9fa5] 匹配中文字符
  • \d{3}-\d{8}|\d{4}-\d{7} 国内电话号码,010-68913536

python正则表达式模块,(Re模块)

  • re是python的标准库,主要用于字符串匹配
  • re库采用raw string类型(原生字符串类型)表示正则表达式,例如r'[1-9]\d{5}',raw string是不包含对转义符再次转义的字符串
  • re库也可以采用string类型表示正则表达,但是较为繁琐,例如'[1-9]\\d{5}'

re库功能函数

函数说明
re.search()在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match()从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall()搜索字符串,以列表类型返回全部能匹配的子串
re.split()将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub()在字符串中替换所有匹配正则表达式的子串,返回替换后的字符串
1. re.search(pattern,string,flags=0)

在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象

  • pattern:正则表达式的字符串或原生字符串表示
  • string:待匹配字符串
  • flags: 正则表达式使用时的控制标记

常用标记说明
re.I re.IGNORECASE忽略正则表达式的大小写,[A-Z]能够匹配小写字符
re.M re.MULTILINE正则表达式中的^操作符能够将给定字符串的每行当做匹配开始
re.s re.DOTALL正则表达式中的.操作符能够匹配所有字符串,默认匹配除换行外的所有字符串
2. re.match(pattern,string,flags=0)

从一个字符串的开始位置起匹配正则表达式,返回match对象

  • pattern:正则表达式的字符串或者原生字符串表示
  • string:待匹配字符串
  • flags:正则表达式使用时的控制标记

3. re.findall(pattern,string,flags=0)

搜索字符串,以列表类型返回全部能匹配的字符串

4. re.split(pattern,string,maxsplit=0,flags=0)

将一个字符串按照正则匹配结果进行分割,返回列表类型

  • maxsplt:最大分割数,剩余部分作为最后一个元素输出

5. re.finditer(pattern,string,flags=0)

搜索字符串,返回一个匹配结果的迭代类型,每个迭代类型是match对象

6. re.sub(pattern,repl,string,cout=0,flags=0)

在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

  • repl:替换匹配字符串的字符串
  • cout:匹配的最大替换次数

re库的面向对象用法

在python中使用正则表达式的时候,re模块内部会做两件事:

  1. 编译正则表达式,如果正则表达式本身不合法,会报错

  2. 用编译后的正则表达式去匹配字符串

    regex = re.compile(pattern,flags=0) 将正则表达式的字符串形式编译成正则表达式对象

  • pattern:正则表达式的字符串或原生字符串表示
  • flags:正则表达式使用时的控制标记

compile后生成了regular expression对象,由于该1对象包含了正则表达式,所以调用对应的方法不用给出正则字符串

re库的Match对象

  • Match对象是一次匹配的结果,包含很多信息

Match对象的属性

属性说明
.string待匹配的文本
.re匹配使用的pattern对象(正则表达式)
.pos正则表达式搜索文本的开始位置
.endpos正则表达式搜索文本的结束位置

Match对象的方法

方法说明
.group(0)获得匹配后的字符串
.start()匹配字符串在原始字符串的开始位置
.end()匹配字符串在原始字符串的结束位置
.span()返回(.start(),.end())一个元组

re库的贪婪匹配和最小匹配

re库默认使用贪婪匹配,即匹配最长的子串

最小匹配

** 最小匹配操作符 **

操作符说明
*?前一个字符0次或者无限次扩展,最小匹配
+?前一个字符1次或者无限次扩展,最小匹配
??前一个字符0次或1次扩展,最小匹配
{m,n}?扩展前一个字符m至n次(包含n),最小匹配

只要输出长度可能不同的,都可以通过在操作符后面加?变成最小匹配

https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/00143193331387014ccd1040c814dee8b2164bb4f064cff000


本文由博客群发一文多发等运营工具平台 OpenWrite 发布

http://www.lryc.cn/news/319036.html

相关文章:

  • 工业物联网平台在水务环保、暖通制冷、电力能源等行业的应用
  • 【研发日记】Matlab/Simulink技能解锁(二)——在Matlab Function编辑窗口Debug
  • 从键盘输入两个数,求它们的和并输出 从键盘输入三个数到a,b,c中,按公式值输出
  • 密码解密 C卷(100%用例)(JavaPythonC++Node.jsC语言)
  • 因为manifest.json文件引起的 android-chrome-192x192.png 404 (Not Found)
  • 『 Linux 』进程替换( Process replacement ) 及 简单Shell的实现(万字)
  • 【Linux】从零开始认识进程 — 前篇
  • 公众号留言功能恢复了,你的开通了吗?
  • C语言葵花宝典之——文件操作
  • SSM框架,MyBatis-Plus的学习(下)
  • 边缘计算网关的工作原理及其在工业领域的应用价值-天拓四方
  • 下载指定版本的pytorch
  • STL:List从0到1
  • 利用高分五号02星高光谱数据进行地物识别
  • 前端如何识别上传的二维码---jsQR
  • flink1.18.0 自定义函数 接收row类型的参数
  • JDK8和JDK11在Ubuntu18上切换(解决nvvp启动报错)
  • 基于eleiment-plus的表格select控件
  • 「❤️万文总结 时光回忆录❤️」那年,我在北京邮电大学计算机学院求学的日子
  • 【四 (1)数据可视化之如何选用正确的图表】
  • PHP<=7.4.21 Development Server源码泄露漏洞 例题
  • 大语言模型RAG-技术概览 (一)
  • 【嵌入式DIY实例】-DIY锂电池电压检测表
  • 生成baidu.com域名的私有证书:Linux系统命令示例
  • 小程序学习4 mock
  • Unity3D MMORPG角色的UI血条管理详解
  • 【python】爬取杭州市二手房销售数据做数据分析【附源码】
  • Day34:安全开发-JavaEE应用反射机制攻击链类对象成员变量方法构造方法
  • Transformer代码从零解读【Pytorch官方版本】
  • 安卓性能优化面试题 31-35