Pytorch DataLoader 变长数据处理方式

 更新时间:2020年01月08日 09:33:00   作者:HappyCtest  
今天小编就为大家分享一篇Pytorch DataLoader 变长数据处理方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据,这篇官方文档已经说得很清楚了,这里就不在赘述。

现在的问题:有的时候,特别对于NLP任务来说,输入的数据可能不是定长的,比如多个句子的长度一般不会一致,这时候使用DataLoader加载数据时,不定长的句子会被胡乱切分,这肯定是不行的。

解决方法是重写DataLoader的collate_fn,具体方法如下:

# 假如每一个样本为:
sample = {
	# 一个句子中各个词的id
	'token_list' : [5, 2, 4, 1, 9, 8],
	# 结果y
	'label' : 5,
}


# 重写collate_fn函数,其输入为一个batch的sample数据
def collate_fn(batch):
	# 因为token_list是一个变长的数据,所以需要用一个list来装这个batch的token_list
  token_lists = [item['token_list'] for item in batch]
  
  # 每个label是一个int,我们把这个batch中的label也全取出来,重新组装
  labels = [item['label'] for item in batch]
  # 把labels转换成Tensor
  labels = torch.Tensor(labels)
  return {
    'token_list': token_lists,
    'label': labels,
  }


# 在使用DataLoader加载数据时,注意collate_fn参数传入的是重写的函数
DataLoader(trainset, batch_size=4, shuffle=True, num_workers=4, collate_fn=collate_fn)

使用以上方法,可以保证DataLoader能Load出一个batch的数据,load出来的东西就是重写的collate_fn函数最后return出来的字典。

以上这篇Pytorch DataLoader 变长数据处理方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python必须了解的35个关键词

    Python必须了解的35个关键词

    这篇文章主要介绍了Python必须了解的35个关键词,文中讲解非常细致,帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • 一篇文章带你了解Python中的类

    一篇文章带你了解Python中的类

    这篇文章主要给大家介绍了关于Python中类的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2021-09-09
  • 快速上手基于Anaconda搭建Django环境的教程

    快速上手基于Anaconda搭建Django环境的教程

    Django具有完整的封装,开发者可以高效率的开发项目,Django将大部分的功能进行了封装,开发者只需要调用即可,接下来通过本文给大家介绍基于Anaconda搭建Django环境的教程,需要的朋友可以参考下
    2021-10-10
  • python 打印对象的所有属性值的方法

    python 打印对象的所有属性值的方法

    下面小编就为大家带来一篇python 打印对象的所有属性值的方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-09-09
  • Python建立Map写Excel表实例解析

    Python建立Map写Excel表实例解析

    这篇文章主要介绍了Python建立Map写Excel表实例解析,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • Python随机生成8位密码的示例详解

    Python随机生成8位密码的示例详解

    这篇文章主要为大家详细介绍了基于Python实现随机生成8位密码的相关方法,文中的示例代码讲解详细,具有一定的借鉴价值,需要的可以参考一下
    2023-02-02
  • Python文件如何读取read()函数

    Python文件如何读取read()函数

    这篇文章主要介绍了Python文件如何读取read()函数问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • python简单图片操作:打开\显示\保存图像方法介绍

    python简单图片操作:打开\显示\保存图像方法介绍

    这篇文章主要介绍了python简单图片操作:打开\显示\保存图像方法介绍,还涉及将图片保存为灰度图的简单方法示例,具有一定参考价值,需要的朋友可以了解下。
    2017-11-11
  • Python shelve模块实现解析

    Python shelve模块实现解析

    这篇文章主要介绍了Python shelve模块实现解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • 浅谈flask源码之请求过程

    浅谈flask源码之请求过程

    这篇文章主要介绍了浅谈flask源码之请求过程,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-07-07

最新评论