Python去除html标签的几种方法总结

 更新时间:2023年01月03日 15:25:42   作者:一行书辞  
这篇文章主要介绍了Python去除html标签的几种方法总结,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

Python去除html标签的方法

最近小说看得比较多,但是很多小说网站都存在各种小广告,看起来很不方便,所以就自己写了个小程序,把小说都爬下来,然后搭个自己喜欢web页面来看。

在爬取过程中没有出现太大的问题,只有在清洗数据时,发现小说文本中混杂HTML标签,所以就需要对标签进行清洗。

我自己尝试了字符串的处理方式,正则,还有lxml等方式来处理这个问题,现在记录一下使用方式。

我们使用下面这个字符串举例说明,内容为一段html代码。需要对这段字符串进行处理,提取文本

html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'

1. 使用正则来处理

import re

pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)

输出结果:

你好哈哈大家好

2. 使用BeautifulSoup来处理

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

输出结果:

你好哈哈大家好

3. 使用lxml来出来

from lxml import etree

response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))

输出结果:

你好哈哈大家好

python正则表达式去除html标签的属性

import re
test='<p class="pictext" align="center">陈细妹</p>'
test=re.sub(r'(<[^>\s]+)\s[^>]+?(>)', r'\1\2', test)
print(test)

输出

<p>陈细妹</p>

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Django Serializer HiddenField隐藏字段实例

    Django Serializer HiddenField隐藏字段实例

    这篇文章主要介绍了Django Serializer HiddenField隐藏字段实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • python打开隐藏控制台方法详解

    python打开隐藏控制台方法详解

    这篇文章主要为大家介绍了python打开隐藏控制台方法详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-10-10
  • 基于python实现对文件进行切分行

    基于python实现对文件进行切分行

    这篇文章主要介绍了基于python实现对文件进行切分行,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04
  • Python字符串常规操作小结

    Python字符串常规操作小结

    本文主要介绍了Python字符串常规操作小结,如拼接字符串、截取字符串、格式化字符串等,下面将对Python中常用字符串操作方法进行介绍,感兴趣的可以了解一下
    2022-04-04
  • 使用python制作九九乘法表的四种方法小结

    使用python制作九九乘法表的四种方法小结

    九九乘法表是初学者学习编程的必要练手题目之一,因此各种语言都有对应的实现方式,而 Python 也不例外,在 Python 中,我们可以使用多种方式来生成一个简单的九九乘法表,本文给大家总结了使用python制作九九乘法表的四种方法,需要的朋友可以参考下
    2024-03-03
  • python函数与方法的区别总结

    python函数与方法的区别总结

    在本篇文章里小编给大家整理了关于python函数与方法的区别的相关知识点代码内容,需要的朋友们学习下。
    2019-06-06
  • python文本进度条实例

    python文本进度条实例

    这篇文章主要为大家介绍了python文本进度条,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2021-12-12
  • 利用pandas进行数据清洗的7种方式

    利用pandas进行数据清洗的7种方式

    采集到原始的数据中会存在一些噪点数据,噪点数据是对分析无意义或者对分析起到偏执作用的数据,所以这篇文章给大家介绍了利用pandas进行数据清洗的7种方式,需要的朋友可以参考下
    2024-03-03
  • Django中Cookie搭配Session使用实践

    Django中Cookie搭配Session使用实践

    session和cookie功能差不多,同样是用来记录用户信息和维持会话状态的,但是session是依赖cookie的,本文主要介绍了Django中Cookie搭配Session使用实践,感兴趣的可以了解一下
    2021-09-09
  • python如何统计代码运行的时长

    python如何统计代码运行的时长

    这篇文章主要介绍了python如何统计代码运行的时长,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07

最新评论