Python爬虫包BeautifulSoup简介与安装(一)

 更新时间:2018年06月17日 08:50:45   作者:SuPhoebe  
这篇文章主要为大家详细介绍了Python爬虫包BeautifulSoup的简介与安装,具有一定的参考价值,感兴趣的朋友可以参考一下

先发官方文档的地址:官方文档

学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。

Beautiful Soup的简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

书本中的源代码用的是Python3,但是据说 BS4 对 Python3 的支持不够好,所以我用的是 Python2.7。源码中也会相应地调整一些包的引入。

因为之前写过CNN等,需要在windows下配置环境,所以已经安装了anaconda。如果安装了anaconda的读者,可以直接使用pip安装,conda需要搜索一下,直接安装时不行的。

anaconda search -t conda beautifulsoup
conda install beautifulsoup4
pip install beautifulsoup4

如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在这里我安装的是 beautifulsoup4 (4.5.1)

BeautifulSoup 3.2.1

BeautifulSoup 4.5.1

下载完成之后解压

运行下面的命令即可完成安装

sudo python setup.py install

有时候的安装方式会需手动安装 lxml,如果用conda安装会自动把依赖包给安装上。

pip install lxml

创建 Beautiful Soup 对象

首先导入bs4库

from bs4 import BeautifulSoup

用urlopen读取一段HTML的内容

import sys
if sys.version_info[0] == 2:
  from urllib2 import urlopen # Python 2
else:
  from urllib.request import urlopen # Python3

html = urlopen(http://www.pythonscraping.com/exercises/exercise1.html)

用读取的内容创建beautifulsoup 对象

bsObj = BeautifulSoup(html.read())
print(bsObj.h1)

此外我们也可以用本地的HTML文件来创建对象,例如

soup = BeautifulSoup(open('index.html'))

输出测试

print bsObj.h1
print bsObj.prettify()

<h1>An Interesting Title</h1>

<html>
 <head>
 <title>
  A Useful Page
 </title>
 </head>
 <body>
 <h1>
  An Interesting Title
 </h1>
 <div>
  Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
 </div>
 </body>
</html>

以上便是输出结果,格式化打印出了它的内容,并且可以通过成员对象的方式获得解析后的HTML层次。

以上全部为本篇文章的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • PyTorch线性回归和逻辑回归实战示例

    PyTorch线性回归和逻辑回归实战示例

    这篇文章主要介绍了PyTorch线性回归和逻辑回归实战示例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-05-05
  • 使用python下载大型文件显示进度条和下载时间的操作代码

    使用python下载大型文件显示进度条和下载时间的操作代码

    大家都知道下载大型文件时存在一个问题,那就是内存使用量迅速上升,可能会造成电脑卡死,所以我们需要换一个方式进行下载,这篇文章主要介绍了使用python下载大型文件的方法显示进度条和下载时间,需要的朋友可以参考下
    2022-11-11
  • Python制作一个随机抽奖小工具的实现

    Python制作一个随机抽奖小工具的实现

    最近在工作中面向社群玩家组织了一场活动,需要进行随机抽奖,就做了一个简单的随机抽奖小工具。具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-07-07
  • python实现在列表中查找某个元素的下标示例

    python实现在列表中查找某个元素的下标示例

    这篇文章主要介绍了python实现在列表中查找某个元素的下标示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11
  • Python+Dlib+Opencv实现人脸采集并表情判别功能的代码

    Python+Dlib+Opencv实现人脸采集并表情判别功能的代码

    这篇文章主要介绍了Python+Dlib+Opencv实现人脸采集并表情判别,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-07-07
  • pandas DataFrame行或列的删除方法的实现示例

    pandas DataFrame行或列的删除方法的实现示例

    这篇文章主要介绍了pandas DataFrame行或列的删除方法的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • Python数据可视化之Matplotlib和Seaborn的使用教程详解

    Python数据可视化之Matplotlib和Seaborn的使用教程详解

    这篇文章主要为大家详细介绍了Python数据可视化中Matplotlib和Seaborn使用的相关教程,文中的示例代码讲解详细,有需要的可以参考下
    2024-03-03
  • django 框架实现的用户注册、登录、退出功能示例

    django 框架实现的用户注册、登录、退出功能示例

    这篇文章主要介绍了django 框架实现的用户注册、登录、退出功能,结合实例形式详细分析了Django框架用户注册、登陆、退出等功能具体实现方法及操作注意事项,需要的朋友可以参考下
    2019-11-11
  • Python详细讲解浅拷贝与深拷贝的使用

    Python详细讲解浅拷贝与深拷贝的使用

    这篇文章主要介绍了Python中的深拷贝和浅拷贝,通过讲解Python中的浅拷贝和深拷贝的概念和背后的原理展开全文,需要的小伙伴可以参考一下
    2022-07-07
  • Python time时间格式化操作指南

    Python time时间格式化操作指南

    这篇文章主要给大家介绍了关于Python time时间格式化操作的相关资料,Python中日期格式化是非常常见的操作,Python中能用很多方式处理日期和时间,转换日期格式是一个常见的功能,需要的朋友可以参考下
    2023-10-10

最新评论