Python爬虫正则表达式常用符号和方法

 更新时间:2015年10月15日 09:46:54   投稿:mrr  
python语言虽然诞生很久,但是也是最近几年才火起来的。在python语言中,我们经常会用到python爬虫的正则表达式,下面小编通过本篇文章给大家介绍python爬虫正则表达式常用的符号和方法,以及具体用法,感兴趣的童鞋快来看看吧

正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。

1、常用符号

. :匹配任意字符,换行符 \n 除外

:匹配前一个字符0次或无限次
? :匹配前一个字符0次或1次

.* :贪心算法,尽可能的匹配多的字符

.*? :非贪心算法

() :括号内的数据作为结果返回

2、常用方法

findall:匹配所有符合规律的内容,返回包含结果的列表

Search:匹配并提取第一个符合规律的内容,返回一个正则表达式对象

Sub:替换符合规律的内容,返回替换后的值

3、使用示例

(1). 的使用举例,匹配任意字符,换行符 \n 除外

import re #导入re库文件

a = 'xy123'

b = re.findall('x..',a)

print b

打印的结果为:['xy1'] ,每个 . 表示一个占位符

(2) * 的使用举例,匹配前一个字符0次或无限次

a = 'xyxy123'

b = re.findall('x*',a)

print b

打印的结果为:['x', '', 'x', '', '', '', '', '']

(3) ? 的使用举例,匹配前一个字符0次或1次

a = 'xy123'

b = re.findall('x?',a)

print b

打印的结果为:['x', '', '', '', '', '']

(4) .* 的使用举例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

b = re.findall('xx.*xx',secret_code)

print b

打印的结果为:['xxIxxfasdjifja134xxlovexx23345sdfxxyouxx']

(5).*?的使用举例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

c = re.findall('xx.*?xx',secret_code)

print c

打印的结果为:['xxIxx', 'xxlovexx', 'xxyouxx']

(6) ()的使用举例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

d = re.findall('xx(.*?)xx',secret_code)

print d

打印的结果为:['I', 'love', 'you'] ,括号内的数据作为返回的结果

(7) re.S的使用举例

s = '''sdfxxhello

xxfsdfxxworldxxasdf'''

d = re.findall('xx(.*?)xx',s,re.S)

print d

打印的结果为:['hello\n', 'world'] ,re.S的作用是使 . 在匹配时包括 \n

(8) findall的使用举例

s2 = 'asdfxxIxx123xxlovexxdfd'

f2 = re.findall('xx(. ?)xx123xx(. ?)xx',s2)

print f20

打印的结果为:love

这时f2为含有一个元组的列表,该元组包含两个元素,该元组中的两个元素为两个()匹配到的内容,如果s2包含多个'xx(. ?)xx123xx(. ?)xx'这样的子串,则f2包含多个元组;

(9) search的使用举例

s2 = 'asdfxxIxx123xxlovexxdfd'

f = re.search('xx(. ?)xx123xx(. ?)xx',s2).group(2)

print f

打印的结果为:love

.group(2) 表示返回第二个括号匹配到的内容,如果是 .group(1), 则打印的就是:I

(10)sub的使用举例

s = '123rrrrr123'

output = re.sub('123(.*?)123','123%d123'%789,s)

print output

打印的结果为:123789123

其中的%d类似于C语言中的%d,如果 output=re.sub('123(.*?)123','123789123',s),输出结果也为: 123789123

(11) \d 的使用举例,用于匹配数字

a = 'asdfasf1234567fasd555fas'

b = re.findall('(\d+)',a)

print b

打印的结果为:['1234567', '555'] , \d+ 可以匹配数字字符串;

以上就是python爬虫正则表达式的一些常用符号和语法,希望对python初学者学习有所帮助。

相关文章

  • 用Javascript正则实现url链接的解析类

    用Javascript正则实现url链接的解析类

    一个非常健全的 Javascript 链接(URL)解析类,他用了正则表达式可以准确获取一个完整的 URL 中每个部分的内容,包括协议、URL中包含的用户名和密码、主机名、端口、路径名、参数、锚点(Fragment Anchor)等信息
    2008-06-06
  • 正则文本框只能输入正整数

    正则文本框只能输入正整数

    用正则表达式实现的文本框只能输入正整数的代码
    2008-10-10
  • ASP超级链接和HTML函数正则表达式 修正版

    ASP超级链接和HTML函数正则表达式 修正版

    ASP超级链接和HTML函数 正则表达式的使用,最后一个实例经过测试。
    2010-01-01
  • PHP 正则表达式函数库(两套)

    PHP 正则表达式函数库(两套)

    正则表达式:用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的模式分割、匹配、查找及替换操作。
    2009-10-10
  • 正则表达式拆分url实例代码

    正则表达式拆分url实例代码

    这篇文章主要给大家介绍了关于正则表达式拆分url的相关资料,文中通过实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2022-02-02
  • windows与linux 路径正则写法

    windows与linux 路径正则写法

    windows与linux 路径正则写法,一般可以用来区分路径。
    2009-11-11
  • [正则表达式]贪婪模式与非贪婪模式

    [正则表达式]贪婪模式与非贪婪模式

    [正则表达式]贪婪模式与非贪婪模式...
    2007-03-03
  • 正则表达式之字符串模式匹配实例详解

    正则表达式之字符串模式匹配实例详解

    正则表达式就是一种强大而灵活的文本处理工具,正则可以很好的解决这类字符串校验问题,下面这篇文章主要给大家介绍了关于正则表达式之字符串模式匹配的相关资料,需要的朋友可以参考下
    2022-04-04
  • 正则在FireFox和IE下使用test的不同

    正则在FireFox和IE下使用test的不同

    今天同事遇到这样的问题,查明原因.记下 由于FireForx和IE的执行javascript的引擎不同,所以会有些不同。以下的例子
    2009-05-05
  • 正则表达式详解

    正则表达式详解

    许多程序设计语言都支持利用正则表达式进行字符串操作,正则表达式又称正则表示法、常规表示法,下面通过本篇文章给大家分享正则表示相关内容,有需要的朋友可以参考下
    2015-08-08

最新评论