当前位置: 首页 > news >正文

Java爬虫与正则表达式——用正则来爬取数据

API

Java帮我们写好的各种功能的Java类。这些Java类统称为API。正则表达式就是API帮我们写好的类。

正则表达式

例子: 

字符类:[abc]:只能是a,b或c

              [^abc]:除了a,b,c之外的任何字符

              [a-zA-Z]:满足a-z以及A-Z这两个区间中的任意一个都可以

              [a-d[m-p]]:a到d或者m到p

              [a-z&&[def]]:a到z和def的交集。

              [a-z&&[^bc]]:a到z和非bc的交集

              [a-z&&[^m-p]]:a到z和非m到p的交集

预定义字符(只能匹配一个字符):.     任何的一个字符

                                                        \d   一个数字:[0-9]

                                                        \D   非数字:[^0-9]

                                                        \s    一个空白字符:[\t\n\x0B\f\r]

                                                        \S   非空白字符:[^\s]

                                                        \w   [a-zA-Z_0-9]英文、数字、下划线

                                                        \W   [^\w]一个非单词字符

                                                        (?i)   忽略大小写

注意:\是转义字符,所以在java中,两个\(\\)表示一个\。(借鉴如上的例子)

数量词:X?     X,一次或0次

              X*      X,零次或多次

              X+      X,一次或多次

              X{n}    X,正好n次

              X{n,}   X,至少n次

              X{n,m}  X,至少n次但不超过m次

爬虫

本地爬虫

网络爬虫

URL后面的网址,是你想要爬取的网址。 

有条件的爬取

贪婪爬取与非贪婪爬取

如果我们在用数量词获取数据时,它表示的次数不精确,那么我们到底获取的是多少次呢?这就涉及到了贪婪爬取与非贪婪爬取。

贪婪爬取:在爬取数据时尽可能多的获取数据。(java默认)

非贪婪爬取:在爬取数据时尽可能少的获取数据。

Java中,默认的是贪婪爬取;如果我们在数量词+ *的后面加上问号,那么此时就是非贪婪爬取

正则表达式在字符串方法中的使用

这里说几个常用的,因为有很多,大家可以在API文档中查阅。

public String[] matches(String regex):判断字符串是否满足正则表达式的规则

public String replaceAll(String regex,String newStr):按照正则表达式的规则进行替换。

public String[] split(String regex):按照正则表达式的规则切割字符串。

分组 

每组是有组号的,也就是序号。

规则1:从1开始,连续不间断。

规则2:以左括号为基准,最左边的是第一组,其次为第二组,以此类推。

 捕获分组

正则内部使用:\\组号

正则外部使用:$组号

非捕获分组

(?:正则):获取所有

(?=正则):获取前面部分

(?!正则):获取不是指定内容的前面部分

注意:这里的括号不占用分组。

如果String regex = "[1-9](?:\\d)\\1";这里后面的\\1会报错,因为他不知道哪里是第一组,这个表达式没有分组。

http://www.lryc.cn/news/591354.html

相关文章:

  • 利用deepspeed在Trainer下面微调大模型Qwen2.5-3B
  • 切比雪夫不等式的理解以及推导【超详细笔记】
  • 【Linux手册】缓冲区:深入浅出,从核心概念到实现逻辑
  • 2025年6月GESP(C++一级):假期阅读
  • 多线程--sem_wait(sem)特殊用法
  • 【原创】【图像算法】高精密电子仪器组装异常检测
  • 24、鸿蒙Harmony Next开发:不依赖UI组件的全局自定义弹出框 (openCustomDialog)
  • java之json转excel生成
  • AppTrace:重新定义免填邀请码,解锁用户裂变新高度
  • IMU噪声模型
  • JxBrowser 7.43.5 版本发布啦!
  • ubuntu 开启ssh踩坑之旅
  • 加速度传感器方向校准方法
  • 原生前端JavaScript/CSS与现代框架(Vue、React)的联系、区别与运行环境(精简版)
  • 关于用git上传远程库的一些常见命令使用和常见问题:
  • Python爬虫入门到实战(2)-selenium驱动浏览器
  • 静态住宅IP和节点有什么区别?哪种更适合你的需求?
  • Redis完全指南:从基础到实战(含缓存问题、布隆过滤器、持久化及Spring Boot集成)
  • redis速记
  • 【WPF】WPF 自定义控件之依赖属性
  • springboot打包二次压缩Excel导致损坏
  • 【Linux基础知识系列】第五十四篇 - 网络协议基础:TCP/IP
  • 深入GPU硬件架构及运行机制
  • 鸿蒙UI自动化测试框架Hypium的使用指南
  • springboot跨域问题 和 401
  • 解锁数据分析:从基础概念到核心指标的全面指南
  • 数据分析:从数据到决策的核心逻辑与实践指南
  • 电脑DLL错误修复dll微软运行库工具修复dll缺失找不到dll等问题,dll免费修复工具
  • Servlet概述
  • 基于arduino单片机汽车智能电子防碰撞装置设计