通俗演绎KMP

最近要实现关键字过滤功能，小看了一些经典的字符串匹配算法。
本文要介绍的是KMP算法（Knuth–Morris–Pratt Algorithm）,那个Knuth应该再熟悉不过了。

KMP算法是从朴素匹配算法改进而来。回忆一下朴素的匹配算法是怎么完成字符串的匹配的呢？

将原串和模式串左对齐，然后一位一位比较，直到有一个字符不匹配
发现第二位的B和C不匹配，模式串右移一位
重复这个流程，直到找到完全匹配的子串或者匹配失败。

但这过程中显然有多比较的地方。如，原串为ABCDEABCDF，模式串为ABCDF。第一轮可以发现E和F不匹配

很显然右移一位必定不匹配，这时模式串可以直接右移4位跳过ABCD，从E开始再次比较

那是不是跳过的长度就是前面相同部分的长度呢？其实不是这样的，这种直接跳过前面相同部分的做法在某些情况下会有问题。如，原串为ABCDABCDABF，模式串为ABCDABF，直接跳过相同部分就会遗漏匹配的串

所以跳过的长度并不是前面完全匹配的部分，可以跳过的长度一般存储在模式串的partial match table中，即KMP算法需要对模式串进行预处理。

先来看看这个partial match table在跳过的过程中是怎么用的，然后再来考察计算partial match table的算法。
ABCDABF的partial match table如下：

可以跳过的长度 = 当前已匹配长度 - 最后一个字母在partial match table中的值。例如：

当发现C和F不匹配时，根据公式，当前已匹配串ABCDAB长度为6, 最后一个字母B在partial match table中的对应值为2，所以可以跳过的长度 = 6 - 2 = 4，即：

这样就能正确匹配了。