python 正则表达式贪婪模式与非贪婪模式原理、用法实例分析

 更新时间:2019年10月14日 11:34:07   作者:两步一脚印  
这篇文章主要介绍了python 正则表达式贪婪模式与非贪婪模式原理、用法,结合实例形式详细分析了python 正则表达式贪婪模式与非贪婪模式的功能、原理、用法及相关操作注意事项,需要的朋友可以参考下

本文实例讲述了python 正则表达式贪婪模式与非贪婪模式原理、用法。分享给大家供大家参考,具体如下:

之前未接触过正则表达式,今日看python网络爬虫的源码,里面一行正则表达式匹配的代码初看之下,不是很理解,代码如下:

myItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',unicodePage,re.S)

“.*?”这种匹配方式,按理解应该是匹配任意字符0个或多个(re.S模式,“.”可以匹配“\n”),但是这个“?”总觉的在这儿是多余的,既然不理解,就敲代码试试:

import re
patern = re.compile('www\..*')
match1 = patern.match("www.baidu.com")
if match1:
  print(match1.group())
else:
  print("match1 don't match")
#output
>>> ==================RESTART =============================
>>> 
www.baidu.com

这个结果,应该说是意料之中,加个“?”呢?

import re
patern = re.compile('www\..*?')
match1 = patern.match("www.baidu.com")
if match1:
  print(match1.group())
else:
  print("match1 don't match")
#output
>>> ==================RESTART =============================
>>> 
www.

竟然是这个结果。。。“.?”一个字符都没匹配,按“.”、“”、“?”的匹配理解,也就是“*”“?”均匹配前面字符0次,才会是这个结果,可是为啥就是0次了?

这就是正则表达式贪婪模式和非贪婪模式:

  • 贪婪模式,总是尝试匹配尽可能多的字符;
  • 非贪婪模式则相反,总是尝试匹配尽可能少的字符。

Python里数量词默认是贪婪的,这就解释了第一个匹配实验,输出结果为”www.baidu.com”(贪婪模式),也就是说第二个匹配实验是非贪婪模式,仅仅因为加了“?”,继续实验

import re
patern = re.compile('www\..?')
match1 = patern.match("www.baidu.com")
if match1:
  print(match1.group())
else:
  print("match1 don't match")
#output
>>> ==================RESTART =============================
>>> 
www.b

此次匹配结果,显然是贪婪模式。奇怪了,也就是“?”的特殊组合才是非贪婪模式。

网上搜索得如下说明:

标准量词修饰的子表达式,在可匹配可不匹配的情况下,总会先尝试进行匹配,称这种方式为匹配优先,或者贪婪模式。此前介绍的一些量词,“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配优先的。
一些NFA正则引擎支持忽略优先量词,也就是在标准量词后加一个“?”,此时,在可匹配可不匹配的情况下,总会先忽略匹配,只有在由忽略优先量词修饰的子表达式,必须进行匹配才能使整个表达式匹配成功时,才会进行匹配,称这种方式为忽略优先,或者非贪婪模式。忽略优先量词包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。

显然“*?”的组合是非贪婪模式,猜想正确,原来如此啊。

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

更多关于Python相关内容可查看本站专题:《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

相关文章

  • Python pexpect模块及shell脚本except原理解析

    Python pexpect模块及shell脚本except原理解析

    这篇文章主要介绍了Python pexpect模块及shell脚本except原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • Pandas.concat连接DataFrame,Series的示例代码

    Pandas.concat连接DataFrame,Series的示例代码

    本文主要介绍了Pandas.concat连接DataFrame,Series的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • pandas根据指定条件筛选数据的实现示例

    pandas根据指定条件筛选数据的实现示例

    条件筛选是pandas中非常重要的一个功能,它允许我们根据特定条件来快速、高效地筛选数据,本文主要介绍了pandas根据指定条件筛选数据的实现示例,具有一定的参考价值,感兴趣的可以了解一下
    2024-03-03
  • python处理文本文件并生成指定格式的文件

    python处理文本文件并生成指定格式的文件

    本节主要介绍了python如何处理文本文件并生成指定格式的文件,需要的朋友可以参考下
    2014-07-07
  • tesseract-ocr使用以及训练方法

    tesseract-ocr使用以及训练方法

    这篇文章主要介绍了tesseract-ocr使用以及训练方法,结合图文形式详细分析了tesseract-ocr基本功能、用法、样本训练与纠错技巧,需要的朋友可以参考下
    2023-04-04
  • 利用python计算时间差(返回天数)

    利用python计算时间差(返回天数)

    这篇文章主要给大家介绍了关于如何利用python计算时间差(返回天数)的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-09-09
  • tensorflow多维张量计算实例

    tensorflow多维张量计算实例

    今天小编就为大家分享一篇tensorflow多维张量计算实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • python 解压、复制、删除 文件的实例代码

    python 解压、复制、删除 文件的实例代码

    这篇文章主要介绍了python 解压、复制、删除 文件的实例代码,代码简单易懂非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-02-02
  • 如何在Python中使用pyecharts图形画可视化大屏

    如何在Python中使用pyecharts图形画可视化大屏

    最近碰巧需要用到pyecharts,pyecharts库是一个用于生成echarts图表的类库,这篇文章主要给大家介绍了关于如何在Python中使用pyecharts图形画可视化大屏的相关资料,需要的朋友可以参考下
    2024-05-05
  • python数据分析数据标准化及离散化详解

    python数据分析数据标准化及离散化详解

    这篇文章主要为大家详细介绍了python数据分析数据标准化及离散化,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02

最新评论