python数据抓取3种方法总结

 更新时间:2021年02月07日 12:16:01   作者:呵呵样  
这篇文章主要给大家介绍了关于python数据抓取的3种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

三种数据抓取的方法

  • 正则表达式(re库)
  • BeautifulSoup(bs4)
  • lxml

*利用之前构建的下载网页函数,获取目标网页的html,我们以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例,获取html。

from get_html import download

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)

*假设我们需要爬取该网页中的国家名称和概况,我们依次使用这三种数据抓取的方法实现数据抓取。

1.正则表达式

from get_html import download
import re

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
country = re.findall('class="h2dabiaoti">(.*?)</h2>', page_content) #注意返回的是list
survey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content)
survey_info_list = re.findall('<p>  (.*?)</p>', survey_data[0])
survey_info = ''.join(survey_info_list)
print(country[0],survey_info)

2.BeautifulSoup(bs4)

from get_html import download
from bs4 import BeautifulSoup

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
html = download(url)
#创建 beautifulsoup 对象
soup = BeautifulSoup(html,"html.parser")
#搜索
country = soup.find(attrs={'class':'h2dabiaoti'}).text
survey_info = soup.find(attrs={'id':'wzneirong'}).text
print(country,survey_info)

3.lxml

from get_html import download
from lxml import etree #解析树

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
selector = etree.HTML(page_content)#可进行xpath解析
country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表
for country in country_select:
 print(country.text)
survey_select = selector.xpath('//*[@id="wzneirong"]/p')
for survey_content in survey_select:
 print(survey_content.text,end='')

运行结果:

最后,引用《用python写网络爬虫》中对三种方法的性能对比,如下图:

仅供参考。

总结

到此这篇关于python数据抓取3种方法的文章就介绍到这了,更多相关python数据抓取内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python实现高斯投影正反算方式

    python实现高斯投影正反算方式

    今天小编就为大家分享一篇python实现高斯投影正反算方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • python操作摄像头截图实现远程监控的例子

    python操作摄像头截图实现远程监控的例子

    这篇文章主要介绍了python操作摄像头截图实现远程监控的例子,例子中包含了控制摄像头、写入Windows注册表方法等,需要的朋友可以参考下
    2014-03-03
  • Python一键生成核酸检测日历的操作代码

    Python一键生成核酸检测日历的操作代码

    这篇文章主要介绍了Python一键生成核酸检测日历,本文以深圳为例,结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-09-09
  • python 3.10上如何安装pyqt5

    python 3.10上如何安装pyqt5

    这篇文章主要介绍了python 3.9上安装pyqt5的详细步骤,本文分步骤给大家介绍如何在python 3.9 上安装 pyqt5,需要的朋友可以参考下
    2022-07-07
  • python中print的不换行即时输出的快速解决方法

    python中print的不换行即时输出的快速解决方法

    下面小编就为大家带来一篇python中print的不换行即时输出的快速解决方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考
    2016-07-07
  • Python logging模块进行封装实现原理解析

    Python logging模块进行封装实现原理解析

    这篇文章主要介绍了Python logging模块进行封装实现原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • Pandas实现一列数据分隔为两列

    Pandas实现一列数据分隔为两列

    这篇文章主要介绍了Pandas实现一列数据分隔为两列,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Python更新数据库脚本两种方法及对比介绍

    Python更新数据库脚本两种方法及对比介绍

    这篇文章给大家介绍了Python更新数据库脚本两种方法及数据库查询三种方式,然后在文章下面给大家介绍了两种方式对比介绍,非常不错,感兴趣的朋友参考下吧
    2017-07-07
  • python实现计算资源图标crc值的方法

    python实现计算资源图标crc值的方法

    这篇文章主要介绍了python实现计算资源图标crc值的方法,通过解析资源文件找到icon的数据,从而实现该功能,需要的朋友可以参考下
    2014-10-10
  • Python全景系列之模块与包全面解读

    Python全景系列之模块与包全面解读

    这篇文章将带大家深入探讨Python模块与包的基本概念,使用方法以及其在实际项目中的应用,同时也会揭示一些鲜为人知,却又实用的技术细节
    2023-05-05

最新评论