当前位置: 首页 > article >正文

Java正则表达式:从基础到高级应用全解析

Java正则表达式应用与知识点详解

一、正则表达式基础概念

正则表达式(Regular Expression)是通过特定语法规则描述字符串模式的工具,常用于:

  • 数据格式验证
  • 文本搜索与替换
  • 字符串分割
  • 模式匹配提取

Java通过java.util.regex包提供支持,核心类:

  • Pattern:编译后的正则表达式对象
  • Matcher:执行匹配操作的引擎
  • PatternSyntaxException:正则语法异常
二、核心语法详解
  1. 字符匹配
// 匹配数字字符
String regex = "\\d";  // 等效于[0-9]
System.out.println("8".matches(regex));  // true// 特殊字符转义
String regex2 = "\\$\\d+\\.\\d{2}";  // 匹配$12.34格式
System.out.println("$99.99".matches(regex2)); // true

  1. 预定义字符类 | 表达式 | 说明 | |--------|-----------------------| | \d | 数字:[0-9] | | \D | 非数字:[^0-9] | | \s | 空白字符:[\t\n\x0B\f\r] | | \w | 单词字符:[a-zA-Z_0-9]|

  2. 量词

String regex = "a{2,4}";  // 匹配2到4个a
System.out.println("aaa".matches(regex));  // true

  1. 边界匹配
// 匹配完整行
String regex = "^\\d{3}-\\d{4}$";
System.out.println("123-4567".matches(regex));  // true

三、分组与反向引用
Pattern pattern = Pattern.compile("(\\d{3})-(\\d{4})");
Matcher matcher = pattern.matcher("123-4567");
if(matcher.find()){System.out.println(matcher.group(0));  // 123-4567System.out.println(matcher.group(1));  // 123System.out.println(matcher.group(2));  // 4567
}

四、常用方法实战
  1. 字符串分割
String[] parts = "apple,banana;cherry".split("[,;]");
// ["apple", "banana", "cherry"]

  1. 替换操作
String result = "18812345678".replaceAll("(\\d{3})\\d{4}(\\d{4})", "$1****$2");
// 188****5678

  1. 复杂匹配验证
// 邮箱验证正则
String emailRegex = "^[\\w-]+(\\.[\\w-]+)*@([\\w-]+\\.)+[a-zA-Z]{2,7}$";
System.out.println("test@example.com".matches(emailRegex));  // true

五、高级应用示例
  1. 提取HTML内容
String html = "<div><h1>Title</h1><p>Content</p></div>";
Pattern tagPattern = Pattern.compile("<([a-zA-Z]+)>(.*?)</\\1>");
Matcher m = tagPattern.matcher(html);while(m.find()){System.out.println("标签:" + m.group(1) + " 内容:" + m.group(2));
}
// 输出:
// 标签:h1 内容:Title
// 标签:p 内容:Content

  1. 日志分析
String log = "2023-08-20 14:23:45 [INFO] User login: id=12345";
Pattern logPattern = Pattern.compile("(\\d{4}-\\d{2}-\\d{2}) " +         // 日期"(\\d{2}:\\d{2}:\\d{2}) " +         // 时间"\\[(\\w+)\\] " +                   // 日志级别"(.+)");                            // 消息内容Matcher m = logPattern.matcher(log);
if(m.find()){System.out.println("时间:" + m.group(1) + " " + m.group(2));System.out.println("级别:" + m.group(3));System.out.println("消息:" + m.group(4));
}

六、性能优化建议
  1. 预编译Pattern对象
// 多次使用的正则应预编译
private static final Pattern DATE_PATTERN = Pattern.compile("\\d{4}-\\d{2}-\\d{2}");

  1. 避免过度回溯
// 差:(a+)*b 
// 优:a+b

  1. 合理使用懒惰量词
// 匹配最短内容
<.*?>  // 懒惰匹配

七、常见问题解决
  1. 中文匹配
String chineseRegex = "[\\u4e00-\\u9fa5]+";
System.out.println("中文测试".matches(chineseRegex));  // true

  1. 多行匹配模式
Pattern multiLine = Pattern.compile("^\\d+", Pattern.MULTILINE);
String input = "123\n456";
Matcher m = multiLine.matcher(input);
while(m.find()){System.out.println(m.group());  // 输出123和456
}

  1. 大小写不敏感
Pattern.compile("[a-z]+", Pattern.CASE_INSENSITIVE);

八、调试工具推荐
  1. 在线验证工具:regex101.com
  2. IDEA内置正则调试器
  3. Regex Tester插件

通过系统学习正则表达式,可以显著提升文本处理效率。建议从简单模式开始实践,逐步掌握复杂表达式编写技巧,同时注意特殊字符转义和性能优化问题。

http://www.lryc.cn/news/2379359.html

相关文章:

  • WindowsPE文件格式入门11.资源表
  • C语言标准I/O与Linux系统调用的文件操作
  • 【MYSQL】笔记
  • 线程池核心线程永续机制:从源码到实战的深度解析
  • DS新论文解读(2)
  • html文件cdn一键下载并替换
  • react路由中Suspense的介绍
  • 【ROS2】 核心概念6——通信接口语法(Interfaces)
  • matlab官方免费下载安装超详细教程2025最新matlab安装教程(MATLAB R2024b)
  • 【运营商查询】批量手机号码归属地和手机运营商高速查询分类,按省份城市,按运营商移动联通电信快速分类导出Excel表格,基于WPF的实现方案
  • ctf 基础
  • 掌握HTML文件上传:从基础到高级技巧
  • UE5无法编译问题解决
  • CentOS7原有磁盘扩容实战记录(LVM非LVM)【针对GPT分区】
  • 机器学习07-归一化与标准化
  • AI agent与lang chain的学习笔记 (1)
  • 优化 Spring Boot 应用启动性能的实践指南
  • 谢赛宁团队提出 BLIP3-o:融合自回归与扩散模型的统一多模态架构,开创CLIP特征驱动的图像理解与生成新范式
  • 【idea】调试篇 idea调试技巧合集
  • 二叉树深搜:在算法森林中寻找路径
  • golang 安装gin包、创建路由基本总结
  • BMVC2023 | 多样化高层特征以提升对抗迁移性
  • 有哪些GIF图片转换的开源工具
  • C++—特殊类设计设计模式
  • Android 手写签名功能详解:从原理到实践
  • Level2.8蛇与海龟(游戏)
  • 【Android构建系统】如何在Camera Hal的Android.bp中选择性引用某个模块
  • 【Canvas与诗词】醉里挑灯看剑 梦回吹角连营
  • Hue面试内容整理-Hue 架构与前后端通信
  • Linux搜索