python爬取之json、pickle与shelve库的深入讲解

 更新时间:2021年03月08日 14:13:05   作者:一秋闲谈  
这篇文章主要给大家介绍了关于python爬取之json、pickle与shelve库的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

前言

在使用Python进行网络编程或者爬取一些自己感兴趣的东西时,总避免不了进行一些数据传输、存取等问题,Python的文件对象以及其他扩展库,已经解决了很多关于文本和二进制数据存取的问题,比如网页内容、图片&音视频等多媒体内容,但这些数据基本是最终的数据形态存储,有没有办法可以存储Python本身的一些对象数据,后续在使用的时候,再直接加载为Python对象即可,本文便讲解下常用的Python对象数据存取、传输解决方案,即pickle、shelve、json。

内容比较基础,也比较简单,但也是必须好好掌握的知识点,因为其潜在的应用场景太广

一、pickle

pickle库提供了一种将Python对象(所有对象)本地化存储的解决方案,后续还可以从这些文件内重新加载,加载后又是Python标准的对象数据,可以用Python直接使用。

pickle有以下特点:

  1. 可以存取所有类型Python对象,并本地化到一个文件内
  2. 每个文件内只能存储一个Python对象

1.1 临时转换

可以将Python对象临时转化为pickle序列(存储在变量内而不是文件内),后续再进行加载使用。

import pickle
a=[1,2,3,4]
#以下将a转化为pickle序列
p_a=pickle.dumps(a)
 
#以下将pickle序列转化为Python对象
a=pickle.loads(p_a)

1.2 永久化存取

可以将Python对象存储到本地文件内,方便下次取出继续使用。

import pickle
a=[1,2,3,4]
f=open('file.pkl','wb')
 
#以下将a转化为pickle序列并存储到本地文件
p_a=pickle.dump(a,f)
 
f=open('file.pkl','rb')
#以下将存储在本地文件内的pickle序列转化为Python对象
a=pickle.load(f)
 
f.close()

以上,首先打开一个文件,注意,因为pickle序列是二进制编码格式,所以文件模式需要有'b'

然后将Python对象序列化并存储到本地文件

后续可通过加载该文件,将里面存储的数据重新加载为Python对象

二、shelve

shelve库相当于基于pickle的优化,因为pickle单文件只能存储单个Python对象,并且每次存取都需要使用dump和load,比较繁琐,所以,该库主要做了以下优化:

  1. 创建了一个轻量级的键值对数据库,支持一个文件内存储多个Python对象
  2. 不需要每次都load,对Python数据的存取,变成了标准的字典访问

以下是演示代码:

import shelve
db=shelve.open('obj_db')
class A:...
a=[1,2,3];b=dict(name='dennis');c=A
db['a']=a
db['b']=b
db['c']=c
 
db['a']
db['b']
db['c']
 
db.close()

以上代码,首先使用shelve的open方法创建一个db,可以指定db文件的存储地址

然后便可以像使用字典一样,用来在该键值对的db内存储Python对象(任何Python对象)

然后可像字典访问一样,重新取出之前已经存储的对象,最后,别忘了战术性关闭db

如果想遍历或内省某db内存量键值,该db也有keys()和values()方法,也支持Python的迭代协议

所以,相较于pickle来说,会方便和强大很多

三、json

json是进行网络数据传输应用最为广泛的数据格式,其可以将Python指定的一些数据对象转化为json字符串,便于进行存储和网络传输,并将该json序列化的字符串重新转变为Python对象。

大体过程为Python→JSON→Python,所以可以进行CS数据传输和通信。

以下为json和Python数据转换映射表:

JSON Python
object dict
array list
string str
number (int) int
number (real) float
true,false Ture,False
null None

3.1 临时转换

可以将Python对象临时转化为json字符串并赋值给某变量,待后续再对其转化为Python对象

一般用于网络传输,尤其是接口调用时数据传输。

import json
mylist=[1,2,3]
mydict={
 'name':dennis
}
#临时转换
a=json.dumps(mydict)
b=json.dumps(mylist)
#将json字符串重新转为Python对象
mylist=json.loads(b)
mydict=json.loads(a)

3.2 永久化存取

可以将Python对象转换为json字符串并永久性存储在本地文件内,便于后续重新加载使用。

import json
mylist=[1,2,3]
mydict={
 'name':dennis
}
 
#将Python对象转化为json字符串,同时存储到file内
with open('myjson.json','w') as f:
 json.dump(mydict,f)
 
#将存储在文件内的json字符串加载并转化为Python对象
with open('myjson.json','r') as f:
 json.load(f)

总结

到此这篇关于python爬取之json、pickle与shelve库的文章就介绍到这了,更多相关python json、pickle与shelve库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python实现猜数游戏(保存游戏记录)

    python实现猜数游戏(保存游戏记录)

    这篇文章主要为大家详细介绍了python实现猜数游戏,保存游戏记录,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-06-06
  • 利用Python如何实时检测自身内存占用

    利用Python如何实时检测自身内存占用

    这篇文章主要介绍了利用Python如何实时检测自身内存占用的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2020-05-05
  • 离线安装Pyecharts的步骤以及依赖包流程

    离线安装Pyecharts的步骤以及依赖包流程

    这篇文章主要介绍了离线安装Pyecharts的步骤以及依赖包流程,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2017-03-03
  • django 基于中间件实现限制ip频繁访问过程详解

    django 基于中间件实现限制ip频繁访问过程详解

    这篇文章主要介绍了django 基于中间件实现限制ip频繁访问过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • Python标准库sched模块使用指南

    Python标准库sched模块使用指南

    这篇文章主要介绍了Python标准库sched模块使用的相关资料,需要的朋友可以参考下
    2017-07-07
  • 基于python实现的百度新歌榜、热歌榜下载器(附代码)

    基于python实现的百度新歌榜、热歌榜下载器(附代码)

    这篇文章主要介绍了基于python实现的百度新歌榜、热歌榜下载器(附代码),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • Python 标准库 fileinput与文件迭代器

    Python 标准库 fileinput与文件迭代器

    这篇文章主要介绍了Python标准库fileinput与文件迭代器,fileinput模块可以对一个或多个文件中的内容进行迭代、遍历等操作,更多详细内容需要的朋友可以参考一下
    2022-09-09
  • 十个Python经典小游戏的代码合集

    十个Python经典小游戏的代码合集

    这篇文章主要为大家分享十个Python经典的小游戏代码,非常适合Python初学者练手。文中的示例代码讲解详细,感兴趣的小伙伴可以尝试一下
    2022-05-05
  • Python中常见的导入方式总结

    Python中常见的导入方式总结

    这篇文章主要介绍了Python中常见的导入方式总结,文中有非常详细的代码示例,对正在学习python的小伙伴们有非常好的帮助,需要的朋友可以参考下
    2021-05-05
  • Python使用gensim计算文档相似性

    Python使用gensim计算文档相似性

    在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。那么python 里面有计算文本相似度的程序包吗,恭喜你,不仅有,而且很好很强大。下面我们就来体验下gensim的强大
    2016-04-04

最新评论