Python操作HDF5文件示例

 更新时间:2022年06月28日 11:36:10   作者:学而时习之_不亦说乎  
这篇文章主要为大家介绍了Python操作HDF5文件示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

引言

Matlab操作HDF5文件中已经详细介绍了HDF5文件已经利用Matlab对其进行操作的方法。这篇文章总结一下如何在Python下使用HDF5文件。我们仍然按照Matlab操作HDF5文件的顺序进行,分别是创建HDF5文件,写入数据,读取数据。

Python下的HDF5文件依赖h5py工具包

创建文件和数据集

使用`h5py.File()方法创建hdf5文件

h5file = h5py.File(filename,'w')

然后在此基础上创建数据集

X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size),             #数据集的维度
                              maxshape = (None,args.patch_size,args.patch_size),                #数据集的允许最大维度 
                              dtype=float,compression='gzip',name='train',                      #数据类型、是否压缩,以及数据集的名字
                              chunks=(args.chunk_size,args.patch_size,args.patch_size))         #分块存储,每一分块的大小

最为关系的两个参数为shape和maxshape,很显然我们希望数据集的某一个维度是可以扩展的,所以在maxshape中,将希望扩展的维度标记为None,其他维度和shape参数里面的一样。还有一点值得注意的是,使用compression='gzip'以后,整个数据集能够被极大的压缩,对比较大的数据集非常又用,并且在数据读写的时候,不用用户显式的解码。

写数据集

在使用上面的creat_dataset创建了dataset以后,读写数据集就如同读写numpy数组一样方便,比如上面的函数定义了数据集'train',也就是变量X以后,可以下面的方法来读写:

data = np.zeros((100,args.patch_size,arg))
X[0:100,:,:] = data

在前面创建数据集的时候,我们定义shape = (args.chunk_size,args.patch_size,args.patch_size),如果有更多的数据,怎么办呢?

可以使用resize方法来扩展在maxshape中定义为None的那个维度:

X.resize(X.shape[0]+args.chunk_size,axis=0)

因为我们在maxshape=(None,args.patch_size,args.patch_size)中将第零个维度定义为可扩展,所以,首先我们用X.shape[0]来找到该维度的长度,并将其扩展。该维度扩展以后,就可以继续向里面写入数据了。

读数据集

读取h5文件的方法也非常简单,首先利用h5py.File方法打开对应的h5文件,然后将里面的某个数据集取出至变量,对这个变量的读取就如同numpy一样了。

h = h5py.File(hd5file,'r')
train = h['train']
train[1]
train[2]
...

但是上面的读取方法存在一个问题就是每一次使用的时候(train[1],train[2])都需要从硬盘读取数据,这将会导致读取的速度比较慢。一个比较好的方法是,每次从硬盘读取一个chunk_size的数据,然后将这些数据存储到内存中,在需要的时候从内存中读取,比如使用下面的方法:

h = h5py.File(hd5file,'r')
train = h['train']
X = train[0:100]         #一次从硬盘中读取比较多的数据,X将存储在内存中
X[1]                     #从内存中读取
X[2]                     #从内存中读取

这样的方法就会快很多。

以上就是Python操作HDF5文件示例的详细内容,更多关于Python操作HDF5文件的资料请关注脚本之家其它相关文章!

相关文章

  • 解决python Markdown模块乱码的问题

    解决python Markdown模块乱码的问题

    今天小编就为大家分享一篇解决python Markdown模块乱码的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-02-02
  • 详解Python查找谁删了你的微信

    详解Python查找谁删了你的微信

    微信好友长时间不联系就可能被对方删除,但是微信也不会主动通知你。那么我们就来用python写一个工具查验一下谁删除了你的微信
    2022-02-02
  • Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理)

    Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理)

    这篇文章整理了一些关于urllib使用中的一些关于header,代理,超时,认证,异常处理处理方法,对大家学习python具有一定的参考借鉴价值,有需要的朋友们下面来一起看看吧。
    2016-09-09
  • 在Django的通用视图中处理Context的方法

    在Django的通用视图中处理Context的方法

    这篇文章主要介绍了在Django的通用视图中处理Context的方法,Django是最具人气的Python web开发框架,需要的朋友可以参考下
    2015-07-07
  • 一文教你Python如何创建属于自己的IP池

    一文教你Python如何创建属于自己的IP池

    这篇文章主要为大家详细介绍了python如何创建属于自己的IP池,文中的示例代码讲解详细,对我们学习或工作有一定参考价值,需要的可以参考一下
    2022-04-04
  • Python的NumPy使用之数组过滤

    Python的NumPy使用之数组过滤

    这篇文章主要介绍了Python的NumPy使用之数组过滤,在 NumPy中,我们使用布尔索引列表来过滤数组布尔索引列表是与数组中的索引相对应的布尔值列表,需要的朋友可以参考下
    2023-07-07
  • Python简单操作sqlite3的方法示例

    Python简单操作sqlite3的方法示例

    这篇文章主要介绍了Python简单操作sqlite3的方法,结合实例形式分析了Python针对sqlite3数据库的读取、创建、增删改查等基本操作技巧,需要的朋友可以参考下
    2017-03-03
  • Pycharm IDE的安装和使用教程详解

    Pycharm IDE的安装和使用教程详解

    这篇文章主要介绍了Pycharm IDE的安装和使用,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-04-04
  • 小试Python中的pack()使用方法

    小试Python中的pack()使用方法

    这篇文章主要介绍了小试Python中的pack()使用方法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-06-06
  • python将三维数组展开成二维数组的实现

    python将三维数组展开成二维数组的实现

    今天小编就为大家分享一篇python将三维数组展开成二维数组的实现,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11

最新评论