python对网页文本的格式化实例方法

 更新时间:2021年10月12日 08:37:22   作者:小妮浅浅  
在本篇文章里小编给大家整理是一篇关于python对网页文本的格式化实例方法,有兴趣的朋友们可以跟着学习参考下。

1、一个网页通常包含文本信息。对于不同的文本类型,我们可以选择合适的HTML语义元素进行标记。

2、em元素用于标记和强调部分内容,small元素用于注释和署名文本。

实例

<body>
    <h1>论语学而篇第一</h1>
    <p><small>
    <b>作者:</b><abbr title="名丘,字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>(<time>前551年9月28日-前479年4月11日</time>)
    </small></p>
    <h2>本篇引语</h2>
    <p>《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章,内容涉及诸多方面。其中重点是
     <strong>「吾日三省吾身」;「节用而爱人,使民以时」;「礼之用,和为贵」以及仁、孝、信等</strong>道德范畴。</p>
    <h2>原文</h2>
    <p>子曰:「<mark>学而时习之,不亦说乎?</mark>有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?」 </p>
  </body>

知识点扩展:

Python int与string之间的转化

string–>int

1、10进制string转化为int

int(‘12')

2、16进制string转化为int

int(‘12', 16)

int–>string

1、int转化为10进制string

str(18)

2、int转化为16进制string

hex(18)

2 . 由于链家网上面选中第二页的时候,只是在页面后面多了一个“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的网页只需要循环更新requests 的页面URL

3 . 增加了一个循环之后,可以打印所有的爬取结果

from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+price

def spider_room(finallyURL):
   r= requests.get(finallyURL)
   html = requests.get(finalURL).content.decode('utf-8')
   dom_tree = etree.HTML(html)
   # all the messages
   all_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")
   for index in range(len(all_message)):
      print(all_message[index].xpath('string(.)').strip())
   return
for i in range(20):
   finallyURL = finalURL + '/d'+str(i)
   spider_room(finallyURL)

4 . 爬取了20页的内容,可是内容的结果输出的形式并没有改变

以上就是python对网页文本的格式化实例方法的详细内容,更多关于python爬虫中网页文本的格式化的资料请关注脚本之家其它相关文章!

相关文章

  • python快速进阶利用Tkinter定制一个信息提示框

    python快速进阶利用Tkinter定制一个信息提示框

    这篇文章主要介绍了python快速进阶利用Tkinter定制一个信息提示框,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-07-07
  • python调用OpenCV实现人脸识别功能

    python调用OpenCV实现人脸识别功能

    这篇文章主要为大家详细介绍了python调用OpenCV实现人脸识别功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-05-05
  • Python小游戏实现实例之接苹果

    Python小游戏实现实例之接苹果

    其实利用Python编写的小游戏很简单,下面这篇文章主要给大家介绍了关于Python小游戏实现实例之接苹果的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-03-03
  • 解析Pytest3种配置文件方式

    解析Pytest3种配置文件方式

    pytest的主配置文件,可以改变pytest的默认行为,本文主要介绍了解析Pytest3种配置文件方式,具有一定的参考价值,感兴趣的可以了解一下
    2024-02-02
  • python自定义类并使用的方法

    python自定义类并使用的方法

    这篇文章主要介绍了python自定义类并使用的方法,涉及Python中类的定义与使用技巧,需要的朋友可以参考下
    2015-05-05
  • Python实现批量修改图片大小

    Python实现批量修改图片大小

    在日常生活中经常有需要调整图片大小的需求,一张两张的还好,但是如果需要几十张几百张甚至几千张,就可以考虑使用Python脚本来执行了,下面小编就来和大家分享几个Python可以批量修改图片大小的脚本吧
    2023-07-07
  • python中base64加密解密方法实例分析

    python中base64加密解密方法实例分析

    这篇文章主要介绍了python中base64加密解密方法,实例分析了base64加密解密的原理、用途与相关使用技巧,需要的朋友可以参考下
    2015-05-05
  • 基于Python制作一个相册播放器

    基于Python制作一个相册播放器

    对于相册播放器,大家应该都不陌生(用于浏览多张图片的一个应用)。本文将利用Python编写一个简单的相册播放器,感兴趣的可以学习一下
    2022-06-06
  • Python的Scrapy框架解析

    Python的Scrapy框架解析

    这篇文章主要为大家介绍了Python的Scrapy框架解析 ,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2021-12-12
  • python用户自定义异常的实例讲解

    python用户自定义异常的实例讲解

    在本篇文章里小编给大家整理的是一篇关于python用户自定义异常的实例讲解,以后需要的朋友们可以跟着学习参考下。
    2021-07-07

最新评论