Python爬虫之正则表达式基本用法实例分析

更新时间：2018年08月08日 11:45:18 作者：Charles.L

这篇文章主要介绍了Python爬虫之正则表达式基本用法,结合实例形式分析了Python正则表达式的基本概念、函数语法、相关使用方法及操作注意事项,需要的朋友可以参考下

本文实例讲述了Python爬虫之正则表达式基本用法。分享给大家供大家参考，具体如下：

一、简介

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

二、使用方法

1、简单看一下写法

函数语法：

re.match(pattern, string, flags=0)

函数参数说明：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.match方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

import re
p = re.compile('abcd')
print(type(p))
#<class '_sre.SRE_Pattern'>
print(dir(p))
#['__class__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'findall', 'finditer', 'flags', 'fullmatch', 'groupindex', 'groups', 'match', 'pattern', 'scanner', 'search', 'split', 'sub', 'subn']
m = p.match('abcdef')
print(type(m))
#<class '_sre.SRE_Match'>
print(dir(m))
#['__class__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'end', 'endpos', 'expand', 'group', 'groupdict', 'groups', 'lastgroup', 'lastindex', 'pos', 're', 'regs', 'span', 'start', 'string']
print(m.group())
#abcd
print(m.group(0))
#abcd

re.match()方法值匹配字符串的开头如果不满足，就返回一个None

import re
p = re.compile('abcd')
m = p.match('abdcef')
print(m.group())
#AttributeError: 'NoneType' object has no attribute 'group'

神奇的.

import re
p = re.compile('.')
m = p.match('abdcef')
print(m.group())
#a

特殊字符（元字符）

注意：\在里面是转义词的意思，例如，你想匹配一个re.compile('.'),这个.是匹配任意字符。但是我就想让它匹配一个.怎么办，re.compile('\.'),这样的话它就真的只匹配一个点。

re.findall()

import re
p = re.compile('\.')
#匹配符号点（注意这里可前面加上了转义符\，就不是匹配任意字符了）
m = p.findall('abc.def.')
print(type(m))
#<class 'list'>
print(m)
#['.', '.']
#可以得出，返回的是一个list，全局查找，不想match方法只匹配字符串开头

数量词：

贪婪模式和非贪婪模式

1、一个小例子

我们知道*表示匹配一个字符串0次或者多次，而+是匹配字符串1次或多次，所以*的时候匹配了0次也打印出来了，而+只找匹配1次的字符。

import re
p = re.compile('[abc]+')
m = p.findall('abcdef')
print(m)
#*
 #['abc', '', '', '', '']
#+
 #['abc']

贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为，贪婪模式在整个表达式匹配成功的前提下，尽可能多的匹配.

而非贪婪模式在整个表达式匹配成功的前提下，尽可能少的匹配。

2、{}

根据下面的例子不难看出，数量词{m}表示的是匹配前面字符串的几个字符串

import re
p = re.compile('[abc]{3}')
m = p.findall('abcdabcd')
print(m)
#{1}
 #['a', 'b', 'c', 'a', 'b', 'c']
#{2}
 #['ab', 'ab']
#{3}
 #['abc', 'abc']

re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配,否则返回的是None（注意findall返回的是list，而search返回的直接就是字符串）

import re
p = re.compile('abcd')
m = p.search('abcdabcd')
print(m.group())

检索和替换

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

语法：

re.sub(pattern, repl, string, count=0, flags=0)

参数：

pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

示例一：

替换一#开头的所有字符（匹配任意字符0次或者多次），替换成无。

import re
phone = "2004-959-559 # 这是一个国外电话号码"
num = re.sub('#.*','',phone)
print(num)

示例一：扩展

找到所有非数字的字符，‘'代表着删除。

import re
phone = "2004-959-559 # 这是一个国外电话号码"
num = re.sub('\D','',phone)
print(num)

正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

PS：这里再为大家提供2款非常方便的正则表达式工具供大家参考使用：

JavaScript正则表达式在线测试工具：
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具：
http://tools.jb51.net/regex/create_reg

更多关于Python相关内容可查看本站专题：《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

python随机数分布random均匀分布实例
今天小编就为大家分享一篇python随机数分布random均匀分布实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-11-11
Python+Opencv实现图像匹配功能(模板匹配)
这篇文章主要为大家详细介绍了Python+Opencv实现图像匹配功能，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-10-10
Python对象属性自动更新操作示例
这篇文章主要介绍了Python对象属性自动更新操作,结合实例形式对比分析了Python对象属性自动更新的原理,并改进了属性互联操作实现方法,需要的朋友可以参考下
2018-06-06
使用Pygame制作中秋嫦娥奔月小游戏
中秋节是中国传统的重要节日之一,起源于嫦娥奔月的神话故事,在中秋节这个特殊的日子里,人们不仅会欣赏明亮的月亮和嫦娥奔月的美丽故事,还会举行一些庆祝活动,接下来,我们使用Pygame制作“嫦娥奔月”小游戏,感兴趣的朋友可以自己动手试一试
2023-09-09
Python：Scrapy框架中Item Pipeline组件使用详解
这篇文章主要介绍了Python：Scrapy框架中Item Pipeline组件使用详解，具有一定借鉴价值,需要的朋友可以参考下
2017-12-12
Python hashlib模块的使用示例
这篇文章主要介绍了Python hashlib模块的相关资料，帮助大家更好的理解和学习python，感兴趣的朋友可以了解下
2020-10-10
将Python代码打包成.exe可执行文件的完整步骤
这篇文章主要给大家介绍了关于如何将Python代码打包成.exe可执行文件的完整步骤，文中通过示例代码介绍的非常详细，对大家的学习或者使用python具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-05-05
Python调用ChatGPT API接口的用法详解
ChatGPT可以实现chat,生成图片,识别关键,改错等等功能，本文简单的给大家介绍一下如何使用python调用ChatGPT API接口，感兴趣的小伙伴可以参考一下
2023-05-05
详解Python中的元组与逻辑运算符
这篇文章主要介绍了Python中的元组与逻辑运算符的用法,是Python入门学习中的基础知识,需要的朋友可以参考下
2015-10-10
OpenCV-Python直方图均衡化实现图像去雾
直方图均衡化可以达到增强图像显示效果的目的。最常用的比如去雾。本文就来实现直方图均衡化实现图像去雾，感兴趣的可以了解一下
2021-06-06

Python爬虫之正则表达式基本用法实例分析

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具