Python机器学习pytorch模型选择及欠拟合和过拟合详解

 更新时间:2021年10月11日 15:32:08   作者:Supre_yuan  
如何发现可以泛化的模式是机器学习的根本问题,将模型在训练数据上过拟合得比潜在分布中更接近的现象称为过拟合,用于对抗过拟合的技术称为正则化

训练误差和泛化误差

训练误差是指,我们的模型在训练数据集上计算得到的误差。
泛化误差是指,我们将模型应用在同样从原始样本的分布中抽取的无限多的数据样本时,我们模型误差的期望。

在实际中,我们只能通过将模型应用于一个独立的测试集来估计泛化误差,该测试集由随机选取的、未曾在训练集中出现的数据样本构成。

模型复杂性

在本节中将重点介绍几个倾向于影响模型泛化的因素:

可调整参数的数量。当可调整参数的数量(有时称为自由度)很大时,模型往往更容易过拟合。参数采用的值。当权重的取值范围较大时,模型可能更容易过拟合。训练样本的数量。即使模型非常简单,也很容易过拟合只包含一两个样本的数据集。而过拟合一个有数百万个样本的数据集则需要一个极其灵活的模型。

模型选择

在机器学习中,我们通常在评估几个候选模型后选择最终的模型。这个过程叫做模型的选择。有时,需要进行比较的模型在本质上是完全不同的(比如,决策树与线性模型)。又有时,我们需要比较不同的超参数设置下的同一类模型。

例如,训练多层感知机模型时,我们可能希望比较具有不同数量的隐藏层、不同数量的隐藏单元以及不同的激活函数组合的模型。为了确定候选模型的最佳模型,我们通常会使用验证集。

验证集

原则上,在我们确定所有的超参数之前,我们不应该用到测试集。如果我们在模型选择过程中使用了测试数据,可能会有过拟合测试数据的风险。
如果我们过拟合了训练数据,还有在测试数据上的评估来判断过拟合。
但是如果我们过拟合了测试数据,我们又应该怎么知道呢?

我们不能依靠测试数据进行模型选择。也不能仅仅依靠训练数据来选择模型,因为我们无法估计训练数据的泛化误差。

解决此问题的常见做法是将我们的数据分成三份,除了训练和测试数据集之外,还增加一个验证数据集(validation dataset),也叫验证集(validation set)。
但现实是,验证数据和测试数据之间的界限非常模糊。在之后实际上是使用应该被正确地称为训练数据和验证数据的东西,并没有真正的测试数据集。因此,之后的准确度都是验证集准确度,而不是测试集准确度。

K折交叉验证

当训练数据稀缺时,我们甚至可能无法提供足够的数据来构成一个合适的验证集。这个问题的一个流行的解决方案是采用 K K K折交叉验证。这里,原始训练数据被分成 K个不重叠的子集。然后执行K次模型训练和验证,每次在K−1个子集上进行训练,并在剩余的一个子集(在该轮中没有用于训练的子集)上进行验证。最后,通过K次实验的结果取平均来估计训练和验证误差。

欠拟合还是过拟合?

当我们比较训练和验证误差时,我们要注意两种常见的情况。
首先,我们要注意这样的情况:训练误差和验证误差都很严重,但它们之间仅有一点差距。如果模型不能降低训练误差,这可能意味着我们的模型过于简单(即表达能力不足),无法捕获我们试图学习的模式。此外,由于我们的训练和验证误差之间的泛化误差很小,我们有理由相信可以用一个更复杂的模型降低训练误差。这种现象被称为欠拟合。

另一方面,当我们的训练误差明显低于验证误差时要小心,这表明严重的过拟合。注意,过拟合并不总是一件坏事。

我们是否过拟合或欠拟合可能取决于模型的复杂性和可用数据集的大小,这两个点将在下面进行讨论。

模型复杂性

在这里插入图片描述

告诫多项式函数比低阶多项式函数复杂得多。高阶多项式的参数较多,模型函数的选择范围较广。因此在固定训练数据集的情况下,高阶多项式函数相对于低阶多项式的训练误差应该始终更低(最坏也是相等)。事实上,当数据样本包含了 x的不同取值时,函数阶数等于数据样本数量的多项式函数可以完美拟合训练集。在下图中,我们直观地描述了多项式的阶数和欠拟合与过拟合之间的关系。

在这里插入图片描述

数据集大小

训练数据集中的样本越少,我们就越可能(且更严重地)遇到过拟合。随着训练数据量的增加,泛化误差通常会减小。此外,一般来说,更多的数据不会有什么坏处。

以上就是Python机器学习pytorch模型选择及欠拟合和过拟合详解的详细内容,更多关于pytorch模型选择及欠拟合和过拟合的资料请关注脚本之家其它相关文章!

相关文章

  • Python 3.3实现计算两个日期间隔秒数/天数的方法示例

    Python 3.3实现计算两个日期间隔秒数/天数的方法示例

    这篇文章主要介绍了Python 3.3实现计算两个日期间隔秒数/天数的方法,结合实例形式较为详细的分析了基于Python3.3的日期时间转换与运算相关操作技巧,需要的朋友可以参考下
    2019-01-01
  • Python调用win10toast框架实现定时调起系统通知

    Python调用win10toast框架实现定时调起系统通知

    win10toast是一个windows通知的出发框架,使用它可以轻松的调起系统通知。通过它可以很方便的做一个定时通知的功能应用。本文将调用win10toast实现定时调起系统通知功能,需要的可以参考一下
    2022-01-01
  • Python实现服务端渲染SSR的示例代码

    Python实现服务端渲染SSR的示例代码

    服务端渲染是一种常见的技术策略,特别是在需要改善网站的搜索引擎优化(SEO)和首屏加载时间的场景下,本文将介绍如何利用 Python 实现 SSR,感兴趣的可以了解下
    2024-02-02
  • Python实现的石头剪子布代码分享

    Python实现的石头剪子布代码分享

    这篇文章主要介绍了Python实现的石头剪子布代码分享,本文和另一篇JavaScript实现的石头剪刀布游戏源码是姐妹篇,需要的朋友可以参考下
    2014-08-08
  • Django Docker容器化部署之Django-Docker本地部署

    Django Docker容器化部署之Django-Docker本地部署

    这篇文章主要介绍了Django Docker容器化部署之Django-Docker本地部署,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-10-10
  • 详解OpenCV执行连通分量标记的方法和分析

    详解OpenCV执行连通分量标记的方法和分析

    在本教程中,您将学习如何使用 OpenCV 执行连通分量标记和分析。具体来说,我们将重点介绍 OpenCV 最常用的连通分量标记函数:cv2.connectedComponentsWithStats,感兴趣的可以了解一下
    2022-08-08
  • Python借助with语句实现代码段只执行有限次

    Python借助with语句实现代码段只执行有限次

    这篇文章主要介绍了Python借助with语句实现代码段只执行有限次,首先要定义一个能够在with语句中使用的类实现enter和exit,下文详细介绍需要的小伙伴可以参考一下
    2022-03-03
  • Python+Django搭建自己的blog网站

    Python+Django搭建自己的blog网站

    一直有种想要搭建自己博客系统打冲动,可惜需要前端知识较多,而且还要安装一系列软件并配置(windows平台),后来偶然发现了Django这个神器,恰巧刚学过python,于是就又装了ubuntu(安装各种软件配置都方便),折腾了半天,终于搭建起来自己的第一个简易博客。
    2018-03-03
  • 使用Python VTK 完成图像切割

    使用Python VTK 完成图像切割

    这篇文章主要介绍了使用Python VTK 完成图像切割,文章内容基于python的相关资料展开对主题的详细介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-04-04
  • Python开发游戏自动化后台脚本的实现

    Python开发游戏自动化后台脚本的实现

    本文主要介绍了Python开发游戏自动化后台脚本的实现,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01

最新评论