python中对正则表达式re包的简单引用方式

 更新时间:2022年02月09日 16:46:09   作者:solitary_w  
这篇文章主要介绍了python中对正则表达式re包的简单引用方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

对正则表达式re包的简单引用

正则表达式一直是被我所忽略的东西,因为在之前的学习和开发中基本很少用到它。而且,之前学习正则表达式时感觉很懵逼,所以毅然决然的放弃了(QAQ),然而出来混总归还是要还的。最近在弄日志处理时,必须用到正则表达式,这就让我不得不拿起正则表达式了。在此记录一些自己学习的笔记与案例。

在python中导入re包

import re  

一、re.match(pattern,string,flags=0)

尝试从字符串 开始 位置(看清楚,开始位置!!!)匹配一个模式。成功则返回一个match对象,失败则是none

参数说明:

  • pattern:正则表达式
  • string:字符串
  • flags:可选标志位

注:可选标志在下面简单说明

获取对象的方法:

使用group(num)  来获取对象小组内的内容。

举例:

#_*_coding:utf8_*_
import re 
str1='010-011-110'
pattern = r'\d{3}-\d{3}-\d{3}'
match = re.match(pattern,str1)
print match.group()
print match.group(0)
print match.group(1)
print match.group(2)
print match.group(3)
 
#输出为:
010-011-110
010-011-110
010
011
110

match()方法最重要的一点就是它是从字符串开始匹配的,切记这一点······我已经在这点上犯了很多错误了。

在写简单的正则表达式的时候我们可以用()来进行分组,以便于我们在后续处理中取值。后续也会谈到通过命名捕获的方式来取值。

二、re.search(pattern,string,flags=0)

跟match函数参数一样,它也是用来匹配字符串的。而最大的不同在于它可以从字符串的任意位置匹配,不像match一样,仅限于从字符串开始位置。参数跟match一样,就不做说明了,直接上例子。

#与match例子不同,001前面有很多空格
str1='    001-010-110'
#与match中的模式一样
pattern = r'\d{3}-\d{3}-\d{3}'
#若此时用match()函数,结果肯定是不匹配的。
search = re.search(pattern,str1)
print search.group()
print search.group(0)
print search.group(1)
print search.group(2)
print search.group(3)
 
#结果:
001-010-110
001-010-110
001
010
110

对于match和search,还是得说一遍,注意一个必须是从字符串开始处匹配,一个是任意位置。

三、检索和替换 re.sub()

用于替换字符串中的匹配项

re.sub(pattern,repl,string,count,flags)

参数说明:

  • pattern:正则表达式
  • repl:替换的字符串,可为一个函数
  • string:要被查找的原始字符串
  • count:被替换的次数,默认替换所有匹配项
  • flags:标志位      
#_*_coding:utf-8_*_
import re 
phone = "888-7777-6666 #好牛的号码
#删除字符串中的注释
num = re.sub(r'#.*','',phone)
print num
#删除注释和-
realphone = re.sub(r'\D','',phone)
print realphone
#结果为:
888-7777-6666
88877776666

sub函数理解起来不难,但要主要的是在repl参数的使用。repl可以为一个函数。例如:

将字符串中的数字乘以二

def double(match):
    value = int(match.group('value'))
    return str(value*2)
s='APPLE23EFG567'
print re.sub(r'(?P<value>\d+)',double,s)
 
#结果为:
 APPLE46EFG1134

因为repl为一个函数,所以再替换的时候会替换为函数的返回值。

注:?P<value>为正则表达式的命名捕获,在下面将会做简单记录

四、正则表达式之命名捕获

格式为: ?P<name>

在处理字符串取值时往往会用到

例子:

num = '001-010-110'
pattern = r'(\d{3})-(\d{3})-(\d{3})'
match = re.match(pattern,num)
print match.group()       #001-010-110
print match.group(1)      #001
print match.group(2)      #010
print match.group(3)      #110

在上述例子要分别获取每项的值就要使用group(num),而当正则表达式变得复杂的时候,再用num取值时,很有可能会取到错误的值。所以就提出使用命名捕获,下面为简单例子:

pattern = r'(?P<Area>\d{3})-(?P<zhong>\d{3})-(?P<wei>\d{3})'
match = re.match(patter, num)
 
print match.group('Area')     #001
print match.group('zhong')    #010
print match/group('wei')      #110

虽然在上述例子中使用命名捕获会将降低正则表达式的可读性,但命名捕获咋复杂的正则中,会准确获取想要的值(当然,正则肯定得写准确啊·····)

re库的正确使用姿势

前提假设:

  • 已经充分掌握PCRE风格正则表达式
  • 熟读re库文档

Why

正则表达式的强大已不用我赘述,Python 对此的支持也是十分强大,只不过:

re.search(pattern, string, flags=0)
re.match(pattern, string, flags=0)
......

你能很麻利地使用如上所示的一系列模块级别function 吗,如果你天天用 Python 搞正则匹配,相信你一定很熟练。但是如果你需要每次临时翻阅文档才能知道如何使用它,那么就要思考:是不是 API 在某种程度上设计不好了(有的语言的 pattern 极有可能不是放在首位)。

一般来说,API 的接口参数越少越好,最好的就是没有参数,调用者无脑调用,没有任何记忆负担。而 Python 的 re 库,在我看来,应该至少糅合了「命令式」与「OOP」两种风格,而且接口也不「最小化,正交」。

使用姿势

正确的姿势应该是:只用 OOP 风格,并且完全忘记 re 库提供的一系列模块级别的 function (如 re.search, re.match等)。

首先是每次都构造出 Regex 对象,然后由 Regex 对象得出 Match 对象,然后在 Regex 对象和 Match 对象上进行一系列操作。比如:

# 1. 构造
    REGEX = re.compile($pattern, flags)     flags是re模块的常量
 
# 2. 获取 MatchObject
    m = regex.search(string)
   
# 3. 后续 MatchObject 的使用
    1. 获取分组  group()    
    2. groups
    3. groupdict()

应用举例

比如我在自己构造的 PathUtils 中,就是如此使用的(我非常喜欢各种各样的 Utils ):

from __future__ import (absolute_import, unicode_literals) 
import re 
class PathUtils(object):
    """路径操作的工具函数"""
 
    _LINUX_ROOT = '/'
    _LINUX_PATH_SPLITOR = '/'
 
    @classmethod
    def is_two_linux_path_contains(cls, path1, path2):
        """两个Linux路径是否存在互相包含关系"""
 
        if path1 == cls._LINUX_ROOT or path2 == cls._LINUX_ROOT:
            return True
 
        path1_split = path1.split(cls._LINUX_PATH_SPLITOR)
        path2_split = path2.split(cls._LINUX_PATH_SPLITOR)
 
        for item1, item2 in zip(path1_split, path2_split):
            if item1 != item2:
                return False 
        return True
 
    @classmethod
    def is_valid_linux_path(cls, path):
        if not path:
            return False
 
        LINUX_PATH_REGEX = r'^(/[^/ ]*)+/?$' 
        return cls.is_valid_pattern(path, LINUX_PATH_REGEX)
 
    @classmethod
    def is_valid_windows_path(cls, path):
        if not path:
            return False
 
        WINDOWS_PATH_REGEX = r'^[a-zA-Z]:\\(((?![<>:"/\\|?*]).)+((?<![ .])\\)?)*$' 
        return cls.is_valid_pattern(path, WINDOWS_PATH_REGEX)
 
    @classmethod
    def is_valid_path(cls, p):
        if not p:
            return False
 
        return cls.is_valid_linux_path(p) or cls.is_valid_windows_path(p)
 
    @classmethod
    def is_valid_pattern(cls, value, pattern):
        if not value:
            return False
 
        REGEX = re.compile(pattern, re.UNICODE) 
        m = REGEX.match(value) 
        return True if m else False

主要的功能函数就是:

@classmethod
def is_valid_pattern(cls, value, pattern):
    if not value:
        return False 
    REGEX = re.compile(pattern, re.UNICODE) 
    m = REGEX.match(value) 
    return True if m else False

这样一系列流程下来,我的感受就是,re 库的接口没有需要记忆,也没有需要临时翻阅文档的地方,并且我只用这一种风格(自己熟悉的,效率总是最高的),比如 re.compile肯定只需要传一个参数(flags不是必要的),REGEX_OBJ.match/search肯定只需要传need_search_string即可。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python实现猜单词小游戏

    python实现猜单词小游戏

    这篇文章主要为大家详细介绍了python实现猜单词小游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-06-06
  • python函数的高级应用详解

    python函数的高级应用详解

    这篇文章主要为大家介绍了python函数的高级应用,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2021-11-11
  • tensorflow saver 保存和恢复指定 tensor的实例讲解

    tensorflow saver 保存和恢复指定 tensor的实例讲解

    今天小编就为大家分享一篇tensorflow saver 保存和恢复指定 tensor的实例讲解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • Python 实用技巧之利用Shell通配符做字符串匹配

    Python 实用技巧之利用Shell通配符做字符串匹配

    这篇文章主要介绍了Python 实用技巧之利用Shell通配符做字符串匹配的方法,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-08-08
  • Python实现队列的方法

    Python实现队列的方法

    这篇文章主要介绍了Python实现队列的方法,实例分析了Python实现队列的相关技巧,需要的朋友可以参考下
    2015-05-05
  • Python中np.argmax()函数用法示例

    Python中np.argmax()函数用法示例

    np.argmax是用于取得数组中每一行或者每一列的的最大值,常用于机器学习中获取分类结果、计算精确度等,下面这篇文章主要给大家介绍了关于Python中np.argmax()函数用法的相关资料,需要的朋友可以参考下
    2022-12-12
  • Pandas 中的 drop_duplicates()详解

    Pandas 中的 drop_duplicates()详解

    Pandas 中的 drop_duplicates() 函数用于从 DataFrame 中删除重复的行,该函数有一些参数,允许你进行不同方式的重复行处理,本文给大家介绍Pandas 中的 drop_duplicates(),感兴趣的朋友跟随小编一起看看吧
    2023-09-09
  • TensorFlow 滑动平均的示例代码

    TensorFlow 滑动平均的示例代码

    这篇文章主要介绍了TensorFlow 滑动平均的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-06-06
  • PyTorch搭建CNN实现风速预测

    PyTorch搭建CNN实现风速预测

    PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序。它不仅能够实现强大的GPU加速,同时还支持动态神经网络。本文将介绍PyTorch搭建CNN如何实现风速预测,感兴趣的可以学习一下
    2021-12-12
  • Python利用appium实现模拟手机滑动操控的操作

    Python利用appium实现模拟手机滑动操控的操作

    Appium 是一个开源、跨平台的自动化测试工具,用于测试原生和轻量移动应用,支持 iOS, Android 和 FirefoxOS 平台。本文将利用appium实现模拟手机滑动操控的操作,感兴趣的可以了解一下
    2022-07-07

最新评论