当前位置: 首页 > news >正文

35.KMP 算法

一、字符串匹配问题

字符串匹配问题可以描述为:给定字符串 T,ST,ST,S,在主串 SSS 中寻找子串 TTT。我们称字符串 TTT 为文本串,字符 SSS 为模式串,长度分别为 m,nm,nm,n。如果用朴素的算法进行匹配,那么最坏情况下,比较的次数是两个字符串长度的相乘,即 O(mn)O(mn)O(mn)

本节我们将介绍一种用于字符串匹配的算法,即 KMP 算法。该算法解决此问题的最坏比较次数是两个字符串长度的相加。如果我们要求的是字符串 SSS 的所有后缀与字符串 TTT 的最长公共前缀,那么我们就需要使用到扩展 KMP 算法(Z 函数),从名字就可以看出来二者在思想上有高度相关性。由于两者的高度相关性,接下来我们首先介绍 KMP 算法

二、KMP 算法

1.基本介绍

在计算机科学中,KMP 算法可在一个文本串 TTT 内查找一个模式串 SSS 的出现位置。该算法通过对这个词在不匹配时本身包含的信息来确定下一个匹配将在哪里开始的发现,从而避免重新检查先前匹配的字符,提高程序运行效率。具体来说,KMP 算法在匹配前会预处理模式串 SSS,得到一个 NextNextNext 数组。借助 NextNextNext 数组,可以在匹配过程中减少很多冗余的匹配操作,由此提高了算法的效率。KMP 算法的时间复杂度为 O(n+m)O(n+m)O(n+m),其中 nnnmmm 分别表示两个串的长度。

2.匹配过程

KMP 算法的核心就是利用 NextNextNext 数组来加快匹配,对于字符串 s=s0s1…sn−1s=s_0s_1\ldots s_{n-1}s=s0s1sn1,如果 jjj 是满足 s0…j=si−j…is_{0\ldots j}=s_{i-j\ldots i}s0j=siji 的最大值,则 Nexti=j(j<i)Next_i=j(j<i)Nexti=j(j<i)。如果不存在 s0…j=si−j…is_{0\ldots j}=s_{i-j\ldots i}s0j=siji 的情况,我们设 Nexti=−1Next_i=-1Nexti=1

假设我们已经求得了模式串 SSSNextNextNext 数组,下面我们来看如何利用其求出字符串 S,TS,TS,T 的匹配,以下面这张图为例子。
在这里插入图片描述

  • 设文本串为 TTT,模式串为 SSS。若 Ti−j−1…i−1=S0…jT_{i-j-1 \ldots i-1}=S_{0 \ldots j}Tij1i1=S0jTi≠Sj+1T_{i}\neq S_{j+1}Ti=Sj+1
  • 现在我们假设存在 j′>Nextjj'>Next_jj>Nextj 使得 Ti−j′−1…i−1=S0…j′T_{i-j'-1 \ldots i-1}=S_{0 \ldots j'}Tij1i1=S0j 成立,也就是上图最后一条线的情况。那么我们不难得到 S0…j′=Sj−j′…jS_{0\ldots j'}=S_{j-j'\ldots j}S0j=Sjjj,这意味着 failj≥j′fail_j\geq j'failjj,这与 j′>Nextjj'>Next_jj>Nextj 矛盾。
  • 因此不存在 j′>Nextjj'>Next_jj>Nextj 使得 Ti−j′−1…i−1=S0…j′T_{i-j'-1 \ldots i-1}=S_{0 \ldots j'}Tij1i1=S0j 成立。所以我们可以直接从 jjj 跳到 NextjNext_jNextj,因为图中的 A,BA,BA,B 段相同,自然满足匹配条件。
  • 重复这个过程直到与模式串的匹配完成即可。这就是我们利用 NextNextNext 数组来加速匹配的原理。

核心代码如下所示:

void KMP()
{ll m = strlen(t), n = strlen(s);ll j = -1;for(ll i = 0; i < m; i++){while(j != -1 && s[j + 1] != t[i])j = Next[j];if(s[j + 1] == t[i]){j++;if(j == n - 1)ans[++count1] = i - n + 1;}}
}

3.求 NextNextNext 数组

现在我们来考虑如何求得 NextNextNext 数组,不难发现求 NextNextNext 数组实际上就是求模式串和自己的匹配,因此我们可以用与上面同样的方法来求出 NextNextNext 数组。因为 j>Nextjj>Next_jj>Nextj,所以我们总能用前面的 NextNextNext 来更新后面的情况。

核心代码如下所示:

void Get_Next()
{ll n = strlen(s);Next[0] = -1;for(ll i = 1; i < n; i++){ll j = Next[i - 1];while(j != -1 && s[j + 1] != s[i])j = Next[j];if(s[j + 1] == s[i])j++;Next[i] = j;}
}

三、扩展 KMP 算法

四、作业

1.KMP 算法

(1)绿题

P3375 【模板】KMP

P4391 [BalticOI 2009] Radio Transmission 无线传输

CF1200E Compress Words

(2)蓝题

P4824 [USACO15FEB] Censoring S

P3435 [POI 2006] OKR-Periods of Words

P2375 [NOI2014] 动物园

2.扩展 KMP 算法

http://www.lryc.cn/news/589315.html

相关文章:

  • 分发糖果-leetcode
  • Python 字典 (Dictionary) 详解
  • JavaScript进阶篇——第三章 箭头函数核心
  • RabbitMQ第三章(企业级MQ应用方案)
  • AI大模型应用架构演进:从LLM基础到Agent协作的范式转移
  • 【SOA用于噪声抑制】光纤DFB激光器中弛豫振荡噪声抑制
  • IPsec:网络层的加密盾牌与HTTPS的差异解析
  • JVM——有哪些常见的垃圾收集器
  • C++中list各种基本接口的模拟实现
  • 022_提示缓存与性能优化
  • Altium Designer(AD)25软件下载及安装教程(7.9)
  • 蓝牙信号强度(RSSI)与链路质量(LQI)的测量与应用:面试高频考点与真题解析
  • Medical | 药品追溯码的应用
  • 【数据结构】单链表练习(有环)
  • 第十四章 Stream API
  • BGP服务器和多线服务器的不同之处
  • 驱动开发_2.字符设备驱动
  • 一键部署 Prometheus + Grafana + Alertmanager 教程(使用 Docker Compose)
  • Linux-【单体架构/分布式架构】
  • 10+热门 AI Agent 框架深度解析:谁更适合你的项目?
  • Mysql中存储引擎、索引、sql调优、锁、innodb引擎架构、MVCC多版本并发控制总结
  • Linux操作系统从入门到实战(十)Linux开发工具(下)make/Makefile的推导过程与扩展语法
  • next.js 登录认证:使用 github 账号授权登录。
  • 开发者工具在爬虫开发中的应用与面板功能详解
  • 【Keil】C/C++混合编程的简单方法
  • A*算法详解
  • 如何进行 Docker 数据目录迁移
  • 【C++】初识C++(1)
  • UDP和TCP的主要区别是什么
  • ADC采集、缓存