浅谈PyTorch的数据读取机制Dataloader与Dataset

更新时间：2023年07月29日 09:55:29 作者：木千之

这篇文章主要介绍了浅谈PyTorch的数据读取机制Dataloader与Dataset,DataLoader的作用是构建一个可迭代的数据装载器，每次执行循环的时候，就从中读取一批Batchsize大小的样本进行训练,需要的朋友可以参考下

Dataloader与DataSet数据读取方法

DataLoader与DataSet是PyTorch数据读取的核心。

“torch.utils.DataLoader”的作用是构建一个可迭代的数据装载器，每次执行循环的时候，就从中读取一批Batchsize大小的样本进行训练。

其主要参数有五项：

dataset：隶属DataSet类，表示数据从哪里读取以及如何读取
batchsize：批大小
num_works：是否多进程读取数据
shuffle：每个epoch是否乱序
drop_last：当样本数不能被batchsize整除时，是否舍弃最后一批数据

上述主要参数中num_works通常在单进程时默认为“0”，也可以在支持多进程的设备上设置为允许的“4 | 8 | 16”等。

shuffle则通常设置为使用乱序（True），以使得每次数据读取具有随机性。

这里颇为重要的是“Epoch、Iteration和Batchsize”之间的关系：

1）Epoch表示所有训练样本都已输入到模型中，记为一个Epoch；

2）Iteration表示一批样本输入到模型中，记为一个Iteration；

3）Batchsize表示批大小，决定一个Epoch中有多少个Iteration。当样本数可以被Batchsize整除时，三者成立关系，即全体样本分成Batchsize分批次输入模型，每批次记为一次Iteration。

若样本总数80个，当Batchsize=8时，可以知道“1 Epoch = 10 Iteration”。

若样本总数87个，当Batchsize-8时，可以知道：1）若“drop_last=True”，则“1 Epoch = 10 Iteration”；2）

若“drop_last=False”，则“1 Epoch = 11 Iteration”，其最后一个Iteration时样本个数为7，小于既定Batchsize。

“torch.utils.data.Dataset”主要用于定义数据从哪里读取以及如何读取的问题。其定义为DataSet抽象类，所有自定义的Dataset都需要继承它，并复写“getitem()”内构函数，该函数接受一个索引，并返回一个样本。

在这里插入图片描述

DataLoader与DataSet数据读取机制

PyTorch的数据读取机制通常围绕三个核心问题展开，即：

读取哪些数据？从哪里读取数据？怎么读取数据？

事实上，通过在PyCharm中进行代码调试，我们可以简要回答上述问题：

1）通过Sampler取样器按序或随机挑选出Batchsize数量的索引列表；

2）使用DataSet中的data_dir指定硬盘上的数据访问路径；

3）使用DataSet中自定义的getitem()方法，基于Sampler返回的索引列表读取相应数据和标签，并拼接成新的列表数据。

在这里插入图片描述

事实上，PyTorch的数据读取经过了诸多函数的跳转。在for循环中首先调用了“DataLoader”，进而使用Sampler、Dataset和getitem解决“数据读哪些？从哪读？怎么读？”的问题。

最后，我们提供一份PyTorch中DataLoader数据读取机制的函数跳转流程图，供大家参考学习。

在这里插入图片描述

到此这篇关于浅谈PyTorch的数据读取机制Dataloader与Dataset的文章就介绍到这了,更多相关PyTorch的Dataloader与Dataset内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

全网首秀之Pycharm十大实用技巧(推荐)
PyCharm 应该是大多数 python 开发者的首选 IDE，每天我们都在上面敲着熟悉的代码，写出一个又一个奇妙的功能。这篇文章主要介绍了Pycharm十大实用技巧，需要的朋友可以参考下
2020-04-04
python中的iterator和"lazy iterator"区别介绍
这篇文章主要介绍了python中的iterator和 “lazy iterator“之间有什么区别,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2023-04-04
Python写的Tkinter程序屏幕居中方法
这篇文章主要介绍了Python写的Tkinter程序屏幕居中方法,Tkinter是一个python模块,是一个调用Tcl/Tk的接口,它是一个跨平台的脚本图形界面接口,需要的朋友可以参考下
2015-03-03
Python基于机器学习方法实现的电影推荐系统实例详解
这篇文章主要介绍了Python基于机器学习方法实现的电影推荐系统,本文给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
2019-06-06
pytorch 图像中的数据预处理和批标准化实例
今天小编就为大家分享一篇pytorch 图像中的数据预处理和批标准化实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
pytorch 修改预训练model实例
今天小编就为大家分享一篇pytorch 修改预训练model实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
Python简单获取网卡名称及其IP地址的方法【基于psutil模块】
这篇文章主要介绍了Python简单获取网卡名称及其IP地址的方法,结合实例形式分析了Python基于psutil模块针对本机网卡硬件信息的读取操作简单使用技巧,需要的朋友可以参考下
2018-05-05
利用Python爬虫实现抢购某宝秒杀商品
这篇文章主要介绍了利用Python爬虫实现抢购某宝秒杀商品，文章基于python的相关资料展开详细的内容介绍具有一定的参考价值，需要的小伙伴可以参考一下
2022-06-06
Python中new方法的详解
今天小编就为大家分享一篇关于Python中new方法的详解，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧
2019-01-01
对sklearn的使用之数据集的拆分与训练详解(python3.6)
今天小编就为大家分享一篇对sklearn的使用之数据集的拆分与训练详解(python3.6)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-12-12