浅谈keras2 predict和fit_generator的坑

 更新时间:2020年06月17日 15:02:49   作者:BYR_jiandong  
这篇文章主要介绍了浅谈keras2 predict和fit_generator的坑,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

1、使用predict时,必须设置batch_size,否则效率奇低。

查看keras文档中,predict函数原型:

predict(self, x, batch_size=32, verbose=0)

说明:

只使用batch_size=32,也就是说每次将batch_size=32的数据通过PCI总线传到GPU,然后进行预测。在一些问题中,batch_size=32明显是非常小的。而通过PCI传数据是非常耗时的。

所以,使用的时候会发现预测数据时效率奇低,其原因就是batch_size太小了。

经验:

使用predict时,必须人为设置好batch_size,否则PCI总线之间的数据传输次数过多,性能会非常低下。

2、fit_generator

说明:keras 中 fit_generator参数steps_per_epoch已经改变含义了,目前的含义是一个epoch分成多少个batch_size。旧版的含义是一个epoch的样本数目。

如果说训练样本树N=1000,steps_per_epoch = 10,那么相当于一个batch_size=100,如果还是按照旧版来设置,那么相当于

batch_size = 1,会性能非常低。

经验:

必须明确fit_generator参数steps_per_epoch

补充知识:Keras:创建自己的generator(适用于model.fit_generator),解决内存问题

为什么要使用model.fit_generator?

在现实的机器学习中,训练一个model往往需要数量巨大的数据,如果使用fit进行数据训练,很有可能导致内存不够,无法进行训练。

fit_generator的定义如下:

fit_generator(generator, steps_per_epoch=None, epochs=1, verbose=1, callbacks=None, validation_data=None, validation_steps=None, class_weight=None, max_queue_size=10, workers=1, use_multiprocessing=False, shuffle=True, initial_epoch=0)

其中各项的具体解释,请参考Keras中文文档

我们重点关注的是generator参数:

generator: 一个生成器,或者一个 Sequence (keras.utils.Sequence) 对象的实例, 以在使用多进程时避免数据的重复。 生成器的输出应该为以下之一:

一个 (inputs, targets) 元组

一个 (inputs, targets, sample_weights) 元组。

那么,问题来了,如何构建这个generator呢?有以下几种办法:

自己创建一个generator生成器

自己定义一个 Sequence (keras.utils.Sequence) 对象

使用Keras自带的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory来生成一个generator

1.自己创建一个generator生成器

使用Keras自带的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory 灵活度不高,只有当数据集满足一定格式(例如,按照分类文件夹存放)或者具备一定条件时,使用才使用才较为方便。

此时,自己创建一个generator就很重要了,关于python的generator是什么原理,怎么使用,就不加赘述,可以查看python的基本语法。

此处,我们用yield来返回数据组,标签组,从而使fit_generator可以调用我们的generator来成批处理数据。

具体实现如下:

  def myGenerator(batch_size):
    # loading data
    X_train,Y_train=load_data(...)
    
    # data processing
    # ................
    
    total_size=X_train.size
    #batch_size means how many data you want to train one step
    
    while 1:
      for i in range(total_size//batch_size):
        yield x_train[i*batch_size:(i+1)*batch_size], y[i*batch_size:(i+1)*batch_size]
  return myGenerator

接着你可以调用该生成器:

self._model.fit_generator(myGenerator(batch_size),steps_per_epoch=total_size//batch_size, epochs=epoch_num)

以上这篇浅谈keras2 predict和fit_generator的坑就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python使用Selenium WebDriver的入门介绍及安装教程(最新推荐)

    Python使用Selenium WebDriver的入门介绍及安装教程(最新推荐)

    这篇文章主要介绍了Python使用Selenium WebDriver的入门介绍及安装教程,本文使用环境为python3.11+win10 64位+firefox浏览器,所以本文使用的浏览器驱动是Firefox的geckodriver ,如果你使用的是其他浏览器,那么选择自己对应的浏览器驱动程序即可,需要的朋友可以参考下
    2023-04-04
  • Python 并行加速技巧分享

    Python 并行加速技巧分享

    这篇文章主要介绍了Python 并行加速技巧分享,文章围绕文章主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-05-05
  • 基于Django与ajax之间的json传输方法

    基于Django与ajax之间的json传输方法

    今天小编就为大家分享一篇基于Django与ajax之间的json传输方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • python语言中有算法吗

    python语言中有算法吗

    在本篇文章里小编给大家整理的是一篇关于python里算法的相关知识点内容,有兴趣的朋友们可以学习下。
    2020-06-06
  • Python定时爬取微博热搜示例介绍

    Python定时爬取微博热搜示例介绍

    大家好,本篇文章主要讲的是Python定时爬取微博热搜示例介绍,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
    2021-12-12
  • 关于Python 中IndexError:list assignment index out of range 错误解决

    关于Python 中IndexError:list assignment index out of rang

    这篇文章主要介绍了Python 中IndexError:list assignment index out of range 错误解决,概述了两个常见的列表函数,它们可以帮助我们在替换两个列表时帮助我们处理 Python 中的索引错误,需要的朋友可以参考下
    2023-05-05
  • Python数据库编程之pymysql详解

    Python数据库编程之pymysql详解

    本文主要介绍了Python数据库编程中pymysql,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-05-05
  • 利用Python Matplotlib绘图并输出图像到文件中的方式

    利用Python Matplotlib绘图并输出图像到文件中的方式

    这篇文章主要介绍了利用Python Matplotlib绘图并输出图像到文件中的方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09
  • 关于Python中flask-httpauth库用法详解

    关于Python中flask-httpauth库用法详解

    这篇文章主要介绍了关于Python中flask-httpauth库用法详解,Flask-HTTPAuth是一个 Flask 扩展,它简化了 HTTP 身份验证与 Flask 路由的使用,需要的朋友可以参考下
    2023-04-04
  • Django的基本运用之Django垃圾分类详解

    Django的基本运用之Django垃圾分类详解

    大家都知道Django 是一个由 Python 编写的一个开放源代码的 Web 应用框架。接下来通过本文给大家介绍Django的基本运用之Django垃圾分类详解,感兴趣的朋友一起看看吧
    2021-09-09

最新评论