当前位置: 首页 > news >正文

Python基础:正则表达式(regular expression)详解

在这里插入图片描述

  在Python中,正则表达式是一种强大的工具,可用于匹配和操作字符串。什么是正则表达式? 正则表达式是一种模式匹配语言,用于匹配字符串中的特定模式。这些模式可以是字母、数字、字符组合或其他符号。正则表达式通常用于文本处理、网络编程、数据分析等领域。
  在 Python 中,正则表达式的实现主要基于 re 模块,该模块提供了一组函数和类,用于处理正则表达式的匹配、搜索和替换。

1. 实现原理:

  正则表达式引擎: Python 中的正则表达式引擎使用了正则表达式的编译和匹配两个主要阶段。
  编译阶段: 在编译阶段,正则表达式字符串会被解析并转换成一个内部的模式表示。这个模式表示了匹配规则,它包括普通字符、元字符、字符类、分组等。
  匹配阶段: 一旦正则表达式被编译,就可以用来匹配字符串。匹配过程是基于模式在字符串中的搜索和比对。引擎会从字符串的起始位置开始,尝试找到与模式匹配的子字符串。
  回溯和优化: 在匹配过程中,可能会涉及到回溯的操作,即引擎试图在字符串中不同位置匹配模式。为了提高性能,引擎会使用一些优化策略,避免不必要的回溯。

2. 正则表达式

  正则表达式由普通字符和元字符组成。普通字符就是字母、数字、空格等常见字符;元字符则表示特殊含义,例如点号(.)表示任意字符,星号(*)表示零个或多个前面的字符。
  常用的元字符及其含义:
  .:匹配任意单个字符
  \d:匹配数字(等价于 [0-9])
  \w:匹配字母、数字、下划线(等价于 [a-zA-Z0-9_])
  \s:匹配空格、制表符、换行符等空白字符
  ^:匹配开头
  $:匹配结尾
  *:匹配前面的字符零次或多次
  +:匹配前面的字符一次或多次
  ?:匹配前面的字符零次或一次
  []:匹配方括号中任意一个字符
  ():将其中的内容作为一个组

3.常见示例:

3.1 匹配手机号码

import repattern = r"\d{11}"
string = "My phone number is 12345678901"
match_result = re.search(pattern, string)if match_result:print("Match found:", match_result.group())
else:print("Match not found")

3.2 匹配邮政编码

import repattern = r"\b\d{6}\b"
string = "The postal code is 123456"
match_result = re.search(pattern, string)if match_result:print("Match found:", match_result.group())
else:print("Match not found")

3.3 提取HTML标签中的内容

import repattern = r"<.*?>"
html_string = "<p>This is a <b>bold</b> statement.</p>"
match_result = re.findall(pattern, html_string)print("Matches found:", match_result)

3.4 提取HTML中的链接(href属性)

import repattern = r'href="(.*?)"'
html_code = '<a href="https://www.example.com">Visit our website</a>'
match_result = re.search(pattern, html_code)if match_result:print("Match found:", match_result.group(1))
else:print("Match not found")

3.5 匹配IP地址

import repattern = r"\b(?:\d{1,3}\.){3}\d{1,3}\b"
string = "Server's IP address is 192.168.1.1"
match_result = re.search(pattern, string)if match_result:print("Match found:", match_result.group())
else:print("Match not found")

3.6 匹配URL

import repattern = r"https?://\S+"
text = "Visit our website at https://www.example.com"
match_result = re.search(pattern, text)if match_result:print("Match found:", match_result.group())
else:print("Match not found")

3.7 匹配日期(yyyy-mm-dd)

import repattern = r"\b\d{4}-\d{2}-\d{2}\b"
text = "Event date: 2022-12-31"
match_result = re.search(pattern, text)if match_result:print("Match found:", match_result.group())
else:print("Match not found")

3.8 匹配邮箱地址

import repattern = r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b"
text = "Contact us at info@example.com or support@company.net"
match_result = re.findall(pattern, text)print("Matches found:", match_result)

3.9 匹配全名中的姓氏

import repattern = r"\b[A-Z][a-z]+\b"
full_name = "John Doe"
match_result = re.findall(pattern, full_name)print("Matches found:", match_result)

3.10 匹配中文名字

import repattern = r'^[\u4e00-\u9fa5]{1,5}$'
name = "王小明"match_result = re.match(pattern, name)if match_result:print("Match found:", match_result.group())
else:print("Match not found")

3.11 匹配字符串中的所有单词

import repattern = r"\b\w+\b"
text = "This is a simple example."
match_result = re.findall(pattern, text)print("Matches found:", match_result)

在这里插入图片描述

http://www.lryc.cn/news/232172.html

相关文章:

  • sqlmap requires ‘python-pymysql‘ third-party library
  • 05 robotFrameWork+selenium2library 一维数组的使用
  • SpringCloud Alibaba组件入门全方面汇总(上):注册中心-nacos、负载均衡-ribbon、远程调用-feign
  • Zabbix钉钉机器人告警
  • unity shaderGraph实例-扫描效果
  • AW2013芯片讲解
  • Spring JdbcTemplate Junit 测试 - ResultSetExtractor/RowMapper
  • RabbitMQ实战
  • UI游戏设计模板大放送:7种别具匠心的创意!
  • 酷开系统 酷开科技,将家庭娱乐推向新高潮
  • 我精心制作的 python 一小时极简课程来了 ≧◠◡◠≦ 免安装程序+精简核心概念
  • 220V交流转直流的简易电源设计
  • 使用Nginx和uwsgi在自己的服务器上部署python的flask项目
  • 【Windows 开发环境配置——NVIDIA 篇】CUDA、cuDNN、TensorRT 三件套安装
  • 【C++】【Opencv】cv::GaussianBlur、cv::filter2D()函数详解和示例
  • 【数据分享】1961—2022年全国范围的逐日降水栅格数据
  • [Linux] 网络文件共享服务
  • 二十七、W5100S/W5500+RP2040树莓派Pico<iperf 测速示例>
  • 非常经典的一道SQL报错注入题目[极客大挑战 2019]HardSQL 1(两种解法!)
  • 创建一个用户test且使用testtab表空间及testtemp临时表空间并授予其权限,密码随意
  • Linux网络应用层协议之http/https
  • LLM(四)| Chinese-LLaMA-Alpaca:包含中文 LLaMA 模型和经过指令微调的 Alpaca 大型模型
  • 虚拟机CentOS 8 重启后不能上网
  • 让AI拥有人类的价值观,和让AI拥有人类智能同样重要
  • 《C++避坑神器·十七》找到程序崩溃Bug的一个实用方法:dump调试
  • ROS stm32 CAN通信
  • 简单地聊一聊Spring Boot的构架
  • 【算法】复习搜索与图论
  • 【KCC@南京】KCC南京数字经济-开源行
  • 苍穹外卖-day11