Python正则表达式re.compile()和re.findall()详解

 更新时间:2022年07月07日 09:39:37   作者:扒啦啦能量  
re 模块提供了不少有用的函数,用以匹配字符串,下面这篇文章主要给大家介绍了关于Python正则表达式re.compile()和re.findall()的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下

前言

在使用爬虫提取网页中的部分信息时,采用到了re.compile()与re.findall()两种方法,目的:把网页中的“某某城市土地规划表”截取并打印出来.

网页中的代码:

 <span class='tab-details'>某某城市土地规划表</span>

提取的方法:

def parse_response(html):
    pattern = re.compile('class=\'tab-details\'>(.*?)</span>',re.S)
    items = re.findall(pattern,html)  
    print(items)
    
    return items

结果:

['某某城市土地规划表']

这里主要讲解pattern,re.compile()与re.findall()的定义及用法:

1.pattern :pattern 属性规定用于验证输入字段的正则表达式。

2.re.compile():compile() 方法用于在脚本执行过程中编译正则表达式,也可用于改变和重新编译正则表达式。

举例:在字符串中全局搜索 "man",并用 "person" 替换。然后通过 compile() 方法,改变正则表达式,用 "person" 替换 "man" 或 "woman",:

<script type="text/javascript">
var str="Every man in the world! Every woman on earth!";
 
patt=/man/g;
str2=str.replace(patt,"person");
//用person取代man
document.write(str2+"<br />");
 
patt=/(wo)?man/g;
patt.compile(patt);
str2=str.replace(patt,"person");
//用person取代man或者woman
document.write(str2);
 
</script>

输出:(可见第一行中的man都被person取代,出现了woperson,第二行的的man和woman也被person取代,只有person,没有其他奇奇怪怪的字符串)

Every person in the world! Every woperson on earth!
Every person in the world! Every person on earth!

3.re.findall():额,这个最难搞,主要是为了讲解(.*?)

re.findall()函数是返回某种形式(比如String)中所有与pattern匹配的全部字符串,返回形式为数组。

下面是findall()函数的两种表示形式:(上面的代码采取的便是第二种形式):

import re
kk = re.compile(r'\d+')
kk.findall('one1two2three3four4')
#[1,2,3,4]
 
#注意此处findall()的用法,可传两个参数;
kk = re.compile(r'\d+')
re.findall(kk,"one123")
#[1,2,3]

下面的是常用的正则表达式:

import re
 
str = 'aabbabaabbaa'
 
# 一个"."就是匹配除 \n (换行符)以外的任意一个字符
print(re.findall(r'a.b',str))#['aab', 'aab']
 
# *前面的字符出现0次或以上
print(re.findall(r'a*b',str))#['aab', 'b', 'ab', 'aab', 'b']
 
# 贪婪,匹配从.*前面为开始到后面为结束的所有内容
print(re.findall(r'a.*b',str))#['aabbabaabb']
 
# 非贪婪,遇到开始和结束就进行截取,因此截取多次符合的结果,中间没有字符也会被截取
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']
 
# 非贪婪,与上面一样,只是与上面的相比多了一个括号,只保留括号的内容
print(re.findall(r'a(.*?)b',str))#['a', '', 'a']
 
str = '''aabbab
         aabbaa
         bb'''     #后面多加了2个b
 
# 没有把最后一个换行的aab算进来
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']
 
# re.S不会对\n进行中断
print(re.findall(r'a.*?b',str,re.S))#['aab', 'ab', 'aab', 'aa\n         b']

注意'.*?'是对它的前后部分作为开始结束部分进行截取,而'(.*?)'也是把其前后作为开始结束,但是只截取括号部分,不包含开始结束部分!!!(同时在对前后部分的选择时要注意特征明确点,就是与众不同的的嘛,防止截取出的是其他部分啊)

re.findall中参数re.S的意义:

1.字符串变为(后面多加了2个b)

str = '''aabbab
         aabbaa
         bb'''

2.参数无re.S,没有把最后一个换行的aab算进来

print(re.findall(r'a.*?b',str))
#['aab', 'ab', 'aab']

3.参数有re.S,不会对\n进行中断

print(re.findall(r'a.*?b',str,re.S))
#['aab', 'ab', 'aab', 'aa\n         b']

在我们一开始的代码中就有re.s,因为在爬取网页的内容时是按照一个一个块的来爬取,可以理解为并列部分,会存在/n分行符。

def parse_response(html):
    pattern = re.compile('class=\'tab-details\'>(.*?)</span>',re.S)
    items = re.findall(pattern,html)  
    print(items)
    
    return items

参考:

1.HTML input pattern 属性 

2.Pattern用法(正则表达式)

3.JavaScript compile() 方法

4.Python 正则表达re模块之findall()详解

总结

到此这篇关于Python正则表达式re.compile()和re.findall()的文章就介绍到这了,更多相关Python正则re.compile()和re.findall()内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 如何用python获取EXCEL文件内容并保存到DBC

    如何用python获取EXCEL文件内容并保存到DBC

    很多时候,使用python进行数据分析的第一步就是读取excel文件,下面这篇文章主要给大家介绍了关于如何用python获取EXCEL文件内容并保存到DBC的相关资料,需要的朋友可以参考
    2023-12-12
  • Python图像处理之图像清晰度评价

    Python图像处理之图像清晰度评价

    图像清晰度评价,顾名思义就是能够通过一张标准图,对同一组相机拍摄的照片进行清晰度评价。本文将利用Python实现这一效果,需要的可以参考一下
    2022-12-12
  • Python短信轰炸的代码

    Python短信轰炸的代码

    这篇文章主要介绍了Python短信轰炸的代码,代码简单易懂,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-03-03
  • Python中异常处理用法

    Python中异常处理用法

    这篇文章主要给大家分享的是 Python中异常处理用法,为了保证程序的健壮性与容错性,即在遇到错误时候程序不会崩溃,我们需要对异常进行处理,下面来看看文章对此的用法,需要的朋友可以参考一下
    2021-11-11
  • Python深入学习之上下文管理器

    Python深入学习之上下文管理器

    这篇文章主要介绍了Python深入学习之上下文管理器,上下文管理器是在Python2.5加入的功能,它能够让你的代码可读性更强并且错误更少,和C#中的using语句类似,需要的朋友可以参考下
    2014-08-08
  • python比较两个列表是否相等的方法

    python比较两个列表是否相等的方法

    这篇文章主要介绍了python比较两个列表是否相等的方法,实例分析了Python中==和is两种方法的区别,需要的朋友可以参考下
    2015-07-07
  • python起点网月票榜字体反爬案例

    python起点网月票榜字体反爬案例

    大家好,本篇文章主要讲的是python起点网月票榜字体反爬案例,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
    2021-12-12
  • python GUI库图形界面开发之PyQt5信号与槽的高级使用技巧(自定义信号与槽)详解与实例

    python GUI库图形界面开发之PyQt5信号与槽的高级使用技巧(自定义信号与槽)详解与实例

    这篇文章主要介绍了python GUI库图形界面开发之PyQt5信号与槽的高级知识(自定义信号与槽)详解与实例,需要的朋友可以参考下
    2020-03-03
  • 最实用的20个python小技巧

    最实用的20个python小技巧

    大家好,本篇文章主要讲的是最实用的20个python小技巧,感兴趣的同学快来看一看吧,希望对你有帮助
    2021-11-11
  • 在Python中使用Fsolve函数的过程解析

    在Python中使用Fsolve函数的过程解析

    这篇文章主要介绍了在Python中使用Fsolve函数的过程解析,在这篇文章中,我们了解到fsolve 是用来寻找非线性方程的根的,了解到fsolve 可以接受的不同种类的参数以及每个参数的含义,需要的朋友可以参考下
    2023-06-06

最新评论