正则用(?>…)实现固化分组提高效率

 更新时间:2012年10月07日 05:47:58   作者:  
用(?>…)实现固化分组(成功匹配后,回簌时不会考虑这个匹配的字符)
具体来说,使用「(?>…)」的匹配与正常的匹配并无差别,但是如果匹配进行到此结构之后(也就是,进行到闭括号之后),那么此结构体中的所有备用状态都会被放弃(不能被回溯)。
  也就是说,在固化分组匹配结束时,它已经匹配的文本已经固化为一个单元,只能作为整体而保留或放弃。括号内的子表达式中未尝试过的备用状态都不复存在了,所以回溯永远也不能选择其中的状态(至少是,当此结构匹配完成时,“锁定(locked in)”在其中的状态)。
例子:
  比如要处理一批数据,原来格式为123.456,后来因为浮点数显示问题,部分数据格式变为123.456000000789这种,,要求做到只保留小数点后面2-3位,但是,最后一位不能为0,这个正则如何写呢?(下面直接考虑小数点后面的数字),写出正则之后,我们还要用这个正则去匹配数据,把原来的数据替换成匹配的结果。

正则一、
复制代码 代码如下:

$str = preg_replace('\.(\d\d[1-9]?)\d*','\\1',$str);
//匹配结果的group1进行反向引用

很明显,这种写法,对于部分数据格式为123.456的这种格式,白白的处理了一遍,为了提高效率,我们还要对这个正则进行处理。从123.456这个字符串跟其他的比较一下,我们发现,是疑问123.456这个数据后面没数字了,所以,白白处理一遍。那好办,我们对这个正则改造一下,把后面的量词*改成+,这样对于123.45 小数点后面1,2位数字的,不会去白白处理,而且,对三位以上数字的,处理正常。其PHP代码为

正则二、
复制代码 代码如下:

$str = preg_replace('\.(\d\d[1-9]?)\d+','\\1',$str);

好了,这个正则真的没问题吗??下面,我们也分析一下这个正则的匹配过程吧。
  字符串"123.456",正则表达式为【\.(\d\d[1-9]?)\d+】,我们来看下

  首先(小数点前123不说了),
  【\.】匹配".",匹配成功,把控制权给下一个【\d】,【\d】匹配“4”成功,把控制权给第二个【\d】,这个【\d】匹配“5”成功,然后,把控制权给了【[1-9]?】,由于量词是【?】,正则表达式遵循“量词优先匹配”,而且,此处是【?】,还会留下一个回溯点。然后匹配"6"成功,然后把控制权给【\d+】,【\d+】发现后面没字符了,最遵循“后进先出”规则,回到上一个回溯点,进行匹配,这时,【[1-9]?】会交还出其匹配的字符“6”,【[1-9]?】匹配“6”成功。匹配完成了。大家发现【(\d\d[1-9]?)】匹配的结果确是"45",并不是我们想要的“456”,“6”被【\d+】匹配去了。那么,我们该如何办呢? 能否让【[1-9]?】匹配一旦成功,不进行回溯呢?这就用到了我们上面说的"固化分组", PHP(preg_replace函数)中使用的正则引擎支持固化分组,我们根据固化分组的写法,可以把代码改成如下方式

正则三、
复制代码 代码如下:

$str = preg_replace('\.(\d\d(?>[1-9]?))\d+','\\1',$str);

改成这样的话,那字符串“123.456“是不符合要求,不会被匹配的。那我们就可以实现我们的要求了。

  所以,让我们来看(\.\d\d(?>[1-9]?))\d+。
  在固化分组内,量词能够正常工作,所以如果[1-9]不能匹配,正则表达式会返回? 留下的备用状态。然后匹配脱离固化分组,继续前进到「\d+」。在这种情况下,当控制权离开固化分组时,没有备用状态需要放弃(因为在固化分组中没有创建任何备用状态)。
  如果[1-9] 能够匹配,匹配脱离固化分组之后,「? 」保存的备用状态仍然存在。但是,因为它属于已经结束的固化分组,所以会被抛弃。
  匹配‘.625'或者‘.625000'时就会发生这种情况。在后一种情况下,放弃那些状态不会带来任何麻烦,因为「\d+」匹配的是‘.625000',到这里正则表达式已经完成匹配。但是对于‘.625'来说,因为「\d+」无法匹配,正则引擎需要回溯,但回溯又无法进行,因为备用状态已经不存在了。既然没有能够回溯的备用状态,整体匹配也就失败,‘.625'不需要处理,而这正是我们期望的。

相关文章

  • PHP正则表达式基础入门

    PHP正则表达式基础入门

    这篇是一篇关于PHP正则表达式基础入门的文章,教大家如何学习php正则表达式,从而真正的掌握php正则表达式,感兴趣的小伙伴们可以参考一下
    2015-11-11
  • Html转换UBB程序

    Html转换UBB程序

    Html转换UBB程序...
    2006-08-08
  • 常用JavaScript正则表达式汇编与示例详解

    常用JavaScript正则表达式汇编与示例详解

    目前收集整理了21个常用的javaScript正则表达式,其中包括用户名、密码强度、整数、数字、电子邮件地址(Email)、手机号码、身份证号、URL地址、 IP地址、 十六进制颜色、 日期、 微信号、车牌号、中文正则等。感兴趣的朋友一起看看吧
    2019-04-04
  • 正则表达式中^和$的含义与实例代码

    正则表达式中^和$的含义与实例代码

    ^从字符串开头进行匹配,$从字符串末尾进行匹配,下面这篇文章主要给大家详细介绍了关于正则表达式中^和$的含义与实例,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2022-08-08
  • js验证email的正则

    js验证email的正则

    根据楼下的反馈,我测试结果,确实这个函数检测邮箱不完善,请使用《js常用函数2008-8-16》中的isEmail函数
    2008-08-08
  • javascript正则表达式RegExp入门图文教程

    javascript正则表达式RegExp入门图文教程

    正则表达式又叫作规则表达式Regular Expression 即 RegExp,是计算机科学的一个概念,它常被用来搜索、替换那些符合某个模式的文本
    2020-02-02
  • 正则表达式中最短匹配模式的用法浅析

    正则表达式中最短匹配模式的用法浅析

    最短匹配应用于:假如有一段文本,你只想匹配最短的可能,而不是最长。下面这篇文章主要给大家介绍了关于正则表达式中最短匹配模式用法的相关资料,文中介绍的非常详细,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-07-07
  • 正则表达式截取身份证号码加密的方法

    正则表达式截取身份证号码加密的方法

    这篇文章主要介绍了正则表达式截取身份证号码加密的方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-06-06
  • 最严谨的校验email地址的正则表达式及各种语言对应版

    最严谨的校验email地址的正则表达式及各种语言对应版

    这篇文章主要介绍了最严谨的校验email地址的正则表达式及各种语言对应版,本文给出通用、Python、Javascript、PHP、Perl / Ruby、Perl等版本的最严谨的表达式写法,需要的朋友可以参考下
    2015-07-07
  • js中string之正则表达式replace方法详解

    js中string之正则表达式replace方法详解

    本篇文章主要介绍了js中string之正则表达式replace方法详解,replace方法是javascript涉及到正则表达式中较为复杂的一个方法,严格上说应该是string对象的方法。
    2017-03-03

最新评论