除捕获组的语法外,其它的(?...)语法都不是捕获组的验证
在一篇正则表达式技术文档中看到下面内容:
“外需要说明的一点是,除(Expression)和(?<name>Expression)语法外,其它的(?...)语法都不是捕获组。”
这个内容是好理解的,但疑惑的是,该文章作者在另一篇相关正则的技术文章中,其中一个这样的实例,着实让我迷惑了一番:
文本内容
<td>a</td><td>b</td>
正则表达式
(?is)<td>(?:(?!</td>).)*</td>
注意上面正则表达式的代码,他对“(?!</td>).”进行“强制非捕获组”,我在短信中告诉他,可以这样写:(?is)<td>((?!</td>).)*</td>
两天仍未见他回复,于是在回过头来研究一下他代码,起初我将重点放在“(?!</td>)”这个括号算不算捕获组。但是在看一次上面技术文章的代码我才反应过来。他不是针对(?!</td>)强制为非捕获组,而是将(?!</td>).强制为非捕获组,于是我就做了下面的测试:
文本内容
<td>a</td><td>a</td>
正则表达式
<td>((?!</td>).)*</td><td>(\1)*</td>
匹配结果
<td>a</td><td>a</td>
这就证明,如果不对“(?!</td>).”进行强制为非捕获组,它是会捕获的,而这个捕获,我根本不需要它。
下面,我在测试一下,除了(Expression)和(?<name>Expression)语法外,其它的,如环视,它算不算捕获组。
文本内容
<td>a</td><td>a</td>
正则表达式
<td>((?!</td>).)*</td><td>(\2.)*</td>
匹配结果:不匹配
如有不同见解,欢迎讨论。
相关文章
Python使用正则表达式去除(过滤)HTML标签提取文字功能
这篇文章主要介绍了Python使用正则表达式去除(过滤)HTML标签提取文字,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值 ,需要的朋友可以参考下2019-07-07
最新评论