pytorch实现seq2seq时对loss进行mask的方式

更新时间：2020年02月18日 09:55:43 作者：uhauha2929

今天小编就为大家分享一篇pytorch实现seq2seq时对loss进行mask的方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

如何对loss进行mask

pytorch官方教程中有一个Chatbot教程，就是利用seq2seq和注意力机制实现的，感觉和机器翻译没什么不同啊，如果对话中一句话有下一句，那么就把这一对句子加入模型进行训练。其中在训练阶段，损失函数通常需要进行mask操作，因为一个batch中句子的长度通常是不一样的，一个batch中不足长度的位置需要进行填充（pad）补0，最后生成句子计算loss时需要忽略那些原本是pad的位置的值，即只保留mask中值为1位置的值，忽略值为0位置的值，具体演示如下：

import torch
import torch.nn as nn
import torch.nn.functional as F
import itertools

DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")

PAD_token = 0

首先是pad函数和建立mask矩阵，矩阵的维度应该和目标一致。

def zeroPadding(l, fillvalue=PAD_token):
 # 输入：[[1, 1, 1], [2, 2], [3]]
 # 返回：[(1, 2, 3), (1, 2, 0), (1, 0, 0)] 返回已经是转置后的 [L, B]
 return list(itertools.zip_longest(*l, fillvalue=fillvalue))


def binaryMatrix(l):
 # 将targets里非pad部分标记为1，pad部分标记为0
 m = []
 for i, seq in enumerate(l):
 m.append([])
 for token in seq:
  if token == PAD_token:
  m[i].append(0)
  else:
  m[i].append(1)
 return m

假设现在输入一个batch中有三个句子，我们按照长度从大到小排好序，LSTM或是GRU的输入和输出我们需要利用pack_padded_sequence和pad_packed_sequence进行打包和解包，感觉也是在进行mask操作。

inputs = [[1, 2, 3], [4, 5], [6]] # 输入句，一个batch，需要按照长度从大到小排好序
inputs_lengths = [3, 2, 1]
targets = [[1, 2], [1, 2, 3], [1]] # 目标句，这里的长度是不确定的，mask是针对targets的
inputs_batch = torch.LongTensor(zeroPadding(inputs))
inputs_lengths = torch.LongTensor(inputs_lengths)
targets_batch = torch.LongTensor(zeroPadding(targets))
targets_mask = torch.ByteTensor(binaryMatrix(zeroPadding(targets))) # 注意这里是ByteTensor
print(inputs_batch)
print(targets_batch)
print(targets_mask)

打印后结果如下，可见维度统一变成了[L, B]，并且mask和target长得一样。另外，seq2seq模型处理时for循环每次读取一行，预测下一行的值（即[B, L]时的一列预测下一列）。

tensor([[ 1, 4, 6],
 [ 2, 5, 0],
 [ 3, 0, 0]])
tensor([[ 1, 1, 1],
 [ 2, 2, 0],
 [ 0, 3, 0]])
tensor([[ 1, 1, 1],
 [ 1, 1, 0],
 [ 0, 1, 0]], dtype=torch.uint8)

现在假设我们将inputs输入模型后，模型读入sos后预测的第一行为outputs1, 维度为[B, vocab_size]，即每个词在词汇表中的概率，模型输出之前需要softmax。

outputs1 = torch.FloatTensor([[0.2, 0.1, 0.7], [0.3, 0.6, 0.1], [0.4, 0.5, 0.1]])
print(outputs1)

tensor([[ 0.2000, 0.1000, 0.7000],
 [ 0.3000, 0.6000, 0.1000],
 [ 0.4000, 0.5000, 0.1000]])

先看看两个函数

torch.gather(input, dim, index, out=None)->Tensor

沿着某个轴，按照指定维度采集数据，对于3维数据，相当于进行如下操作：

out[i][j][k] = input[index[i][j][k]][j][k] # if dim == 0
out[i][j][k] = input[i][index[i][j][k]][k] # if dim == 1
out[i][j][k] = input[i][j][index[i][j][k]] # if dim == 2

比如在这里，在第1维，选第二个元素。

# 收集每行的第2个元素
temp = torch.gather(outputs1, 1, torch.LongTensor([[1], [1], [1]]))
print(temp)

tensor([[ 0.1000],
 [ 0.6000],
 [ 0.5000]])

torch.masked_select(input, mask, out=None)->Tensor

根据mask(ByteTensor)选取对应位置的值，返回一维张量。

例如在这里我们选取temp大于等于0.5的值。

mask = temp.ge(0.5) # 大于等于0.5
print(mask)
print(torch.masked_select(temp, temp.ge(0.5)))

tensor([[ 0],
 [ 1],
 [ 1]], dtype=torch.uint8)
tensor([ 0.6000, 0.5000])

然后我们就可以计算loss了，这里是负对数损失函数，之前模型的输出要进行softmax。

# 计算一个batch内的平均负对数似然损失，即只考虑mask为1的元素
def maskNLLLoss(inp, target, mask):
 nTotal = mask.sum()
 # 收集目标词的概率，并取负对数
 crossEntropy = -torch.log(torch.gather(inp, 1, target.view(-1, 1)))
 # 只保留mask中值为1的部分，并求均值
 loss = crossEntropy.masked_select(mask).mean()
 loss = loss.to(DEVICE)
 return loss, nTotal.item()

这里我们计算第一行的平均损失。

# 计算预测的第一行和targets的第一行的loss
maskNLLLoss(outputs1, targets_batch[0], targets_mask[0])

(tensor(1.1689, device='cuda:0'), 3)

最后进行最后把所有行的loss累加起来变为total_loss.backward()进行反向传播就可以了。

以上这篇pytorch实现seq2seq时对loss进行mask的方式就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

python3学习之Splash的安装与实例教程
splash 是一个python语言编写的用于配合scrapy解析js的库，下面这篇文章主要给大家介绍了关于python3学习之Splash的安装与使用的一些相关资料，文中通过示例代码介绍的非常详细，需要的朋友可以参考下
2018-07-07
Python 堆叠柱状图绘制方法
这篇文章主要介绍了Python 堆叠柱状图绘制方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-07-07
PyQt Qt Designer工具的布局管理详解
这篇文章主要介绍了PyQt Qt Designer工具的布局管理详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
Python自动化操作Excel方法详解(xlrd,xlwt)
Excel是Windows环境下流行的、强大的电子表格应用。本文将详解用Python利用xlrd和xlwt实现自动化操作Excel的方法详细，需要的可以参考一下
2022-06-06
Python机器学习logistic回归代码解析
这篇文章主要介绍了Python机器学习logistic回归代码解析，具有一定借鉴价值,需要的朋友可以参考下
2018-01-01
python如何将两张图片生成为全景图片
这篇文章主要为大家详细介绍了python如何将两张图片生成为全景图片，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-03-03
matplotlib画图之修改坐标轴刻度问题
这篇文章主要介绍了matplotlib画图之修改坐标轴刻度问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-11-11
简单了解Python中的几种函数
这篇文章主要介绍了简单了解Python中的几种函数，具有一定参考价值。需要的朋友可以了解下。
2017-11-11
Pycharm新建项目时报错解决办法
pycharm可以很方便的管理Python的解释器(如果安装了多个的话),以及第三方模块,包,下面这篇文章主要给大家介绍了关于Pycharm新建项目时报错解决的相关资料,需要的朋友可以参考下
2023-06-06
pytorch实现保证每次运行使用的随机数都相同
今天小编就为大家分享一篇pytorch实现保证每次运行使用的随机数都相同，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02

pytorch实现seq2seq时对loss进行mask的方式

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具