正则表达式之字符组简记法与字符组运算

 更新时间:2023年05月28日 12:31:26   作者:gaara724  
这篇文章主要介绍了正则表达式之字符组简记法与字符组运算,用[0-9]、[a-z]等字符组,这里就为大家介绍一下,需要的朋友可以参考下

字符组简记法

用[0-9]、[a-z]等字符组,可以很方便地表示数字字符和小写字母字符。对于这类常用的字符组,正则表达式提供了更简单的记法,这就是字符组简记法(shorthands)。

常见的字符组简记法有\d、\w、\s。从表面上看,它们与[…]完全没联系,其实是一致的。其中\d等价于[0-9],其中的d代表"数字(digit)";\w等价于[0-9a-zA-Z_],其中的w代表"单词字符(word)";\s等价于[ \t\r\n\v\f](第一个字符是空格),s表示"空白字符(space)"。例1-17说明了这几个字符组简记法的典型匹配。

例1-17  字符组简记法\d、\w、\s

#如果没有原生字符串,\d就必须写作\\d  
re.search(r"^\d$", "8") != None     #  => True  
re.search(r"^\d$", "a") != None     #  => False  
re.search(r"^\w$", "8") != None     #  => True  
re.search(r"^\w$", "a") != None     #  => True  
re.search(r"^\w$", "_") != None     #  => True  
re.search(r"^\s$", " ") != None     #  => True  
re.search(r"^\s$", "\t") != None    #  => True  
re.search(r"^\s$", "\n") != None    #  => True

一般印象中,单词字符似乎只包含大小写字母,但是字符组简记法中的"单词字符"不只有大小写单词,还包括数字字符和下画线_,其中的下画线_尤其值得注意:在进行数据验证时,有可能只容许输入"数字和字母",有人会偷懒用\w验证,而忽略了\w能匹配下画线,所以这种匹配并不严格,[0-9a-zA-Z]才是准确的选择。

"空白字符"并不难定义,它可以是空格字符、制表符\t,回车符\r,换行符\n等各种"空白"字符,只是不方便展现(因为显示和印刷出来都是空白)。不过这也提醒我们注意,匹配时看到的"空白"可能不是空格字符,因此,\s才是准确的选择。

字符组简记法可以单独出现,也可以使用在字符组中,比如[0-9a-zA-Z]也可以写作[\da-zA-Z],所以匹配十六进制字符的字符组可以写成[\da-fA-F]。字符组简记法也可以用在排除型字符组中,比如[^0-9]就可以写成[^\d][^0-9a-zA-Z_]就可以写成[^\w],代码如例1-18。

例1-18  字符组简记法与普通字符组混用

#用在普通字符组内部  
re.search(r"^[\da-zA-Z]$", "8") != None  #  => True  
re.search(r"^[\da-zA-Z]$", "a") != None  #  => True  
re.search(r"^[\da-zA-Z]$", "C") != None  #  => True  
#用在排除型字符组内部  
re.search(r"^[^\w]$", "8") != None       #  => False  
re.search(r"^[^\w]$", "_") != None       #  => False  
re.search(r"^[^\w]$", ",") != None       #  => True

相对于\d、\w和\s这三个普通字符组简记法,正则表达式也提供了对应排除型字符组的简记法:\D、\W和\S--字母完全一样,只是改为大写。这些简记法匹配的字符互补:\s能匹配的字符,\S一定不能匹配;\w能匹配的字符,\W一定不能匹配;\d能匹配的字符,\D一定不能匹配。例1-19示范了这几个字符组简记法的应用。

例1-19  \D、\W、\S的使用

#\d和\D  
re.search(r"^\d$", "8") != None     #  => True  
re.search(r"^\d$", "a") != None     #  => False  
re.search(r"^\D$", "8") != None     #  => False  
re.search(r"^\D$", "a") != None     #  => True  
#\w和\W  
re.search(r"^\w$", "c") != None     #  => True  
re.search(r"^\w$", "!") != None     #  => False  
re.search(r"^\W$", "c") != None     #  => False  
re.search(r"^\W$", "!") != None     #  => True  
#\s和\S  
re.search(r"^\s$", "\t") != None    #  => True  
re.search(r"^\s$", "0") != None     #  => False  
re.search(r"^\S$", "\t") != None    #  => False  
re.search(r"^\S$", "0") != None     #  => True

妥善利用这种互补的属性,可以得到一些非常巧妙的效果,最简单的应用就是字符组[\s\S]。初看起来,在同一个字符组中并列两个互补的简记法,这种做法有点奇怪,不过仔细想想就会明白,\s和\S组合在一起,匹配的就是"所有的字符"(或者叫"任意字符")。许多语言中的正则表达式并没有直接提供"任意字符"的表示法,所以[\s\S]、[\w\W]、[\d\D]虽然看起来有点古怪,但确实可以匹配任意字符 。

关于字符组简记法,最后需要补充两点:第一,如果字符组中出现了字符组简记法,最好不要出现单独的-,否则可能引起错误,比如[\d-a]就很让人迷惑,在有些语言中,-会被作为普通字符,而在有些语言中,这样写会报错;第二,以上说的\d、\w、\s的匹配规则,都是针对ASCII编码而言的,也叫ASCII匹配规则。但是,目前一些语言中的正则表达式已经支持了Unicode字符,那么数字字符、单词字符、空白字符的范围,已经不仅仅限于ASCII编码中的字符。关于这个问题,具体细节在后文有详细的介绍,如果你现在就想知道,可以翻到第115页。

正则表达式——字符组运算

以上介绍了字符组的基本功能,它们在常用的语言中都有提供;还有些语言中为字符组提供了更强大的功能,比如Java和.NET就提供了字符组运算的功能,可以在字符组内进行集合运算,在某些情况下这种功能非常实用。

如果要匹配所有的元音字母(为讲解简单考虑,暂时只考虑小写字母的情况),可以用[aeiou],但是要匹配所有的辅音字母却没有什么方便的办法,最直接的写法是[b-df-hj-np-tv-z],不但烦琐,而且难理解。其实,从26个字母中"减去"元音字母,剩下的就是辅音字母,如果有办法做这个"减法",就方便多了。

Java语言中提供了这样的字符组:[[a-z]&&[^aeiou]],虽然初看有点古怪,但仔细看看,也不难理解。[a-z]表示26个英文字母,[^aeiou]表示除元音字母之外的所有字符(还包括大写字母、数字和各种符号),两者取交集,就得到"26个英文字母中,除去5个元音字母,剩下的21个辅音字母"。

.NET中也有这样的功能,只是写法不一样。同样是匹配辅音字母的字符组,.NET中写作[a-z-[aeiou]],其逻辑是:从[a-z]能匹配的26个字符中,"减去"[aeiou]能匹配的元音字母。相对于Java,这种逻辑更符合直觉,但写法却有点古怪--不是[[a-z]-[aeiou]],而是[a-z-[aeiou]]。例1-20集中演示了Java和.NET中的字符组运算。

例1-20  字符组运算

// Java  
"a".matches("^[[a-z]&&[^aeiou]]$");     //  => True  False
"b".matches("^[[a-z]&&[^aeiou]]$");     //  => False True
// .NET  
Regex.IsMatch("^[a-z-[aeiou]]$", "a");  //  => True  False
Regex.IsMatch("^[a-z-[aeiou]]$", "b");  //  => False True*红色为更正

到此这篇关于正则表达式之字符组简记法与字符组运算的文章就介绍到这了,更多相关正则字符组简记法与运算内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 正则表达式详析+常用示例

    正则表达式详析+常用示例

    这篇文章主要介绍了正则表达式详析+常用示例,正则表达式就是用来操作字符串的一种逻辑公式,下面小编将用示例的方法来介绍正则表达式的相关内容,需要的小伙伴可以参考一下
    2022-01-01
  • 详解正则表达式后面不要包含指定的字符串内容

    详解正则表达式后面不要包含指定的字符串内容

    这篇文章主要介绍了正则表达式后面不要包含指定的字符串内容的相关知识,非常不错,具有一定的参考借鉴价值 ,需要的朋友可以参考下
    2019-04-04
  • RegExp对象的方法和属性

    RegExp对象的方法和属性

    RegExp对先看整个字符串是不是匹配,如果没有发现匹配,先去掉最后字符串中的最后一个字符,并再次尝试,如果还没有发现匹配,那么再次去掉最后一个字符,这个过程会一直重复下去直到发现匹配或不剩任何字符串,上面的简单量词都是贪婪量词。
    2008-06-06
  • MySQL中REGEXP正则表达式使用大全

    MySQL中REGEXP正则表达式使用大全

    使用正则表达式操作mysql数据库非常方便,本篇文章给大家分享mysql中REGEXP正则表达式使用大全,感兴趣的朋友跟着小编一起看看吧
    2015-09-09
  • js 正则表达式之test函数讲解

    js 正则表达式之test函数讲解

    该方法的返回值是布尔值,通过该值可以匹配字符串中是否存在于正则表达式相匹配的结果,如果有匹配内容,返回ture,如果没有匹配内容返回false,该方法常用于判断用户输入数据的合法性,比如检验Email的合法性
    2012-10-10
  • 关于正则表达式基本语法的应用详解(必看篇)

    关于正则表达式基本语法的应用详解(必看篇)

    下面小编就为大家带来一篇关于正则表达式基本语法的应用详解(必看篇)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-08-08
  • js正则匹配table tr

    js正则匹配table tr

    这篇文章主要介绍了js正则匹配table tr,需要的朋友可以参考下
    2007-06-06
  • 将 html 转成 ubb代码的小脚本

    将 html 转成 ubb代码的小脚本

    将 html 转成 ubb代码的小脚本...
    2006-11-11
  • js处理网页编辑器转义、去除转义、去除HTML标签的正则

    js处理网页编辑器转义、去除转义、去除HTML标签的正则

    这篇文章主要介绍了富文本编辑器生成的HTML标签,进行转义,然后写入数据库,防止脚本注入,需要的朋友可以参考下
    2020-02-02
  • javascript正则表达式学习之位置匹配

    javascript正则表达式学习之位置匹配

    正则表达式是匹配模式,要么是匹配字符,要么匹配位置。在开发中用到位置匹配的机会很少,但是小编也给大家介绍下关于正则表达式位置匹配的相关知识,感兴趣的朋友跟随小编一起看看吧
    2019-04-04

最新评论