小记正则(一)

0x00 什么是正则表达式

正则表达式是使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。总之，正则表达式就是一个标记语法，简单的描述复杂的语言。比如匹配一个数字 4-6 次，正则就简单的表示为 [0-9]{4,6}。

可以在维基百科上查看正则常用标记。

贪婪和非贪婪是正则语法中非常重要的两种模式，可以说没有这两老大哥，你不禁会感叹正则表达式也不过如此。

尽可能多的去匹配某一种模式，遇到不匹配的然后进行回溯。

我们平时常见的贪婪模式有*, +, ?, {n,m}, {n,}, {n}。

贪婪的代价很大，假设我有如下的普通的字符串 44546, 我们使用 ^.*45 的正则表达式去匹配，执行流程将会如下:

可以看见在这个过程中，.* 是一直匹配到最后一个不能的匹配的字符为止，然后往前回溯，匹配结果。这也正是贪婪的思想：尽可能多的去匹配。

回溯的最大长度等于贪婪匹配终点-贪婪匹配起点。

尽可能少的去匹配某一种模式。非贪婪的模式中，也会出现大量的回溯。

常见的开启贪婪的方式 *?, ??, +?, {n,m}?, {n,}?。

假设我们有如下的普通字符串 s=111114 , 我们用正则表达式 r=1{3,6}14 去匹配

从整个匹配过程可以看出

在正则中我们会遇见 | ，这个记号，通常来匹配句子。比如 (ab | cd)，表示ab或者cd。

但是 | 这个语句，如果不适当优化，也是容易出现大量的回溯。

一个很简单的例子:

用正则 aabb|aacb 来匹配普通字符串 r=aacb

未命名文件

这个过程会先从aabb这条链出发

匹配aacb这条链条, 这个时候r的下标又会从0开始

可以看出一条链进行失败，会切换到另外一条链，而且r的下标也会回溯到匹配开始的位置。

但是从图中来看, aa 是两条链的公共前缀，实际上应该从 aa 后面开始分叉，这样就可以有效减少回溯次数。

优化之后的正则表达式 aa(bb|cb)

平时我们在写正则表达式的时候，应该了解其匹配原理，然后设计出一个经过优化的表达式。毕竟，你永远也想不到，.* 这种回溯会给你带来多大的影响😄。