Python使用get_text()方法从大段html中提取文本的实例

 更新时间:2019年08月27日 08:45:16   作者:白学家Lynn  
今天小编就为大家分享一篇Python使用get_text()方法从大段html中提取文本的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

如下所示:

<textarea rows="" cols="" name="id"><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p> </o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第一条 为促进微博客信息服务健康有序发展,保护公民、法人和其他组织的合法权益,维护国家安全和公共利益,根据《中华人民共和国网络安全法》《国务院关于授权国家互联网信息办公室负责互联网信息内容管理工作的通知》,制定本规定。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第二条 在中华人民共和国境内从事微博客信息服务,应当遵守本规定。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>本规定所称微博客,是指基于使用者关注机制,主要以简短文字、图片、视频等形式实现信息传播、获取的社交网络服务。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者是指提供微博客平台服务的主体。微博客服务使用者是指使用微博客平台从事信息发布、互动交流等的行为主体。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客信息服务是指提供微博客平台服务及使用微博客平台从事信息发布、传播等行为。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第三条 国家互联网信息办公室负责全国微博客信息服务的监督管理执法工作。地方互联网信息办公室依据职责负责本行政区域内的微博客信息服务的监督管理执法工作。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第四条 微博客服务提供者应当依法取得法律法规规定的相关资质。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>向社会公众提供互联网新闻信息服务的,应当依法取得互联网新闻信息服务许可,并在许可范围内开展服务,禁止未经许可或超越许可范围开展互联网新闻信息服务活动。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第五条 微博客服务提供者应当发挥促进经济发展、服务社会大众的积极作用,弘扬社会主义核心价值观,传播先进文化,坚持正确舆论导向,倡导依法上网、文明上网、安全上网。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第六条 微博客服务提供者应当落实信息内容安全管理主体责任,建立健全用户注册、信息发布审核、跟帖评论管理、应急处置、从业人员教育培训等制度及总编辑制度,具有安全可控的技术保障和防范措施,配备与服务规模相适应的管理人员。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者应当制定平台服务规则,与微博客服务使用者签订服务协议,明确双方权利、义务,要求微博客服务使用者遵守相关法律法规。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第七条 微博客服务提供者应当按照“后台实名、前台自愿”的原则,对微博客服务使用者进行基于组织机构代码、身份证件号码、移动电话号码等方式的真实身份信息认证、定期核验。微博客服务使用者不提供真实身份信息的,微博客服务提供者不得为其提供信息发布服务。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者应当保障微博客服务使用者的信息安全,不得泄露、篡改、毁损,不得出售或者非法向他人提供。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第八条 微博客服务使用者申请前台实名认证账号的,应当提供与认证信息相符的有效证明材料。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>境内具有组织机构特征的微博客服务使用者申请前台实名认证账号的,应当提供组织机构代码证、营业执照等有效证明材料。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>境外组织和机构申请前台实名认证账号的,应当提供驻华机构出具的有效证明材料。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第九条 微博客服务提供者应当按照分级分类管理原则,根据微博客服务使用者主体类型、发布内容、关注者数量、信用等级等制定具体管理制度,提供相应服务,并向国家或省、自治区、直辖市互联网信息办公室备案。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十条 微博客服务提供者应当对申请前台实名认证账号的微博客服务使用者进行认证信息审核,并按照注册地向国家或省、自治区、直辖市互联网信息办公室分类备案。微博客服务使用者提供的证明材料与认证信息不相符的,微博客服务提供者不得为其提供前台实名认证服务。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>各级党政机关、企事业单位、人民团体和新闻媒体等组织机构对所开设的前台实名认证账号发布的信息内容及其跟帖评论负有管理责任。微博客服务提供者应当提供管理权限等必要支持。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十一条 微博客服务提供者应当建立健全辟谣机制,发现微博客服务使用者发布、传播谣言或不实信息,应当主动采取辟谣措施。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十二条 微博客服务提供者和微博客服务使用者不得利用微博客发布、传播法律法规禁止的信息内容。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者发现微博客服务使用者发布、传播法律法规禁止的信息内容,应当依法立即停止传输该信息、采取消除等处置措施,保存有关记录,并向有关主管部门报告。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十三条 微博客服务提供者应用新技术、调整增设具有新闻舆论属性或社会动员能力的应用功能,应当报国家或省、自治区、直辖市互联网信息办公室进行安全评估。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十四条 微博客服务提供者应当自觉接受社会监督,设置便捷的投诉举报入口,及时处理公众投诉举报。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十五条 国家鼓励和指导互联网行业组织建立健全微博客行业自律制度和行业准则,推动微博客行业信用等级评价和信用体系建设,督促微博客服务提供者依法提供服务、接受社会监督。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十六条 微博客服务提供者应当遵守国家相关法律法规规定,配合有关部门开展监督管理执法工作,并提供必要的技术支持和协助。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者应当记录微博客服务使用者日志信息,保存时间不少于六个月。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十七条 微博客服务提供者违反本规定的,由有关部门依照相关法律法规处理。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV>
<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第十八条 本规定自2018年3月20日起施行。</SPAN><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><o:p></o:p></SPAN></DIV><!--EndFragment--></textarea>

比如这儿有这么一大段带html的字串,想要从中提取文本,首先发现这是一个textarea

我们使用beautifulsoup

def get_content(url):
 resp = urllib.request.urlopen(url)
 html = resp.read()
 bs = BeautifulSoup(html, "html.parser")
 return bs.textarea.get_text()

首先用那段html字符串初始化beautifulsoup对象

然后bs.textarea返回找到的第一个textarea,找到后使用get_text()清空所有html标签元素

之后就会返回干净的文字

以上这篇Python使用get_text()方法从大段html中提取文本的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python数据处理之Pandas类型转换的实现

    python数据处理之Pandas类型转换的实现

    本文主要介绍了python数据处理之Pandas类型转换的实现,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-04-04
  • Pandas 如何筛选包含特定字符的列

    Pandas 如何筛选包含特定字符的列

    这篇文章主要介绍了Pandas 如何筛选包含特定字符的列,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • python按比例随机切分数据的实现

    python按比例随机切分数据的实现

    这篇文章主要介绍了python按比例随机切分数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • python使用for循环和海龟绘图实现漂亮螺旋线

    python使用for循环和海龟绘图实现漂亮螺旋线

    这篇文章主要为大家介绍了python使用for循环和海龟绘图实现漂亮螺旋线实现示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • python等间距取值方式

    python等间距取值方式

    这篇文章主要介绍了python等间距取值方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • python3爬虫中多线程的优势总结

    python3爬虫中多线程的优势总结

    在本篇文章里小编给大家分享了一篇关于python3爬虫中多线程的优势总结内容,需要的朋友们可以参考学习下。
    2020-11-11
  • 利用Selenium添加cookie实现自动登录的示例代码(fofa)

    利用Selenium添加cookie实现自动登录的示例代码(fofa)

    这篇文章主要介绍了利用Selenium添加cookie实现自动登录的示例代码(fofa),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-05-05
  • python使用线程封装的一个简单定时器类实例

    python使用线程封装的一个简单定时器类实例

    这篇文章主要介绍了python使用线程封装的一个简单定时器类,实例分析了Python线程的使用及定时器类的实现技巧,需要的朋友可以参考下
    2015-05-05
  • Anaconda安装OpenCV的方法图文教程

    Anaconda安装OpenCV的方法图文教程

    在Anaconda里安装OpenCV的方法有很多,下面这篇文章主要给大家介绍了关于Anaconda安装OpenCV的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-09-09
  • python+django加载静态网页模板解析

    python+django加载静态网页模板解析

    这篇文章主要介绍了python+django加载静态网页模板解析,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12

最新评论