pandas分批读取大数据集教程

更新时间：2020年06月06日 10:32:21 作者：htbeker

这篇文章主要介绍了pandas分批读取大数据集教程，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

如果你的电脑内存较小那么想在本地做一些事情是很有局限性的（哭丧脸），比如想拿一个kaggle上面的竞赛来练练手，你会发现多数训练数据集都是大几G或者几十G的，自己那小破电脑根本跑不起来。行，你有8000w条样本你牛逼，我就取400w条出来跑跑总行了吧（狡滑脸）。

下图是2015年kaggle上一个CTR预估比赛的数据集：

看到train了吧，原始数据集6个G，特征工程后得多大？那我就取400w出来train。为了节省时间和完整介绍分批读入数据的功能，这里以test数据集为例演示。其实就是使用pandas读取数据集时加入参数chunksize。

可以通过设置chunksize大小分批读入，也可以设置iterator=True后通过get_chunk选取任意行。

当然将分批读入的数据合并后就是整个数据集了。

ok了！

补充知识：用Pandas 处理大数据的3种超级方法

易上手，文档丰富的Pandas 已经成为时下最火的数据处理库。此外，Pandas数据处理能力也一流。

其实无论你使用什么库，大量的数据处理起来往往回遇到新的挑战。

数据处理时，往往会遇到没有足够内存（RAM）这个硬件问题。企业往往需要能够存够数百，乃至数千的GB 数据。

即便你的计算机恰好有足够的内存来存储这些数据，但是读取数据到硬盘依旧非常耗时。

别担心！ Pandas 数据库会帮我们摆脱这种困境。这篇文章包含3种方法来减少数据大小，并且加快数据读取速度。我用这些方法，把超过100GB 的数据，压缩到了64GB 甚至32GB 的内存大小。

快来看看这三个妙招吧。

数据分块

csv 格式是一种易储存，易更改并且用户易读取的格式。 pandas 有read_csv ()方法来上传数据，存储为CSV 格式。当遇到CSV 文件过大，导致内存不足的问题该怎么办呢？试试强大的pandas 工具吧！我们先把整个文件拆分成小块。这里，我们把拆分的小块称为chunk。

一个chunk 就是我们数据的一个小组。 Chunk 的大小主要依据我们内存的大小，自行决定。

过程如下：

1.读取一块数据。

2.分析数据。

3.保存该块数据的分析结果。

4.重复1-3步骤，直到所有chunk 分析完毕。

5.把所有的chunk 合并在一起。

我们可以通过read_csv()方法Chunksize来完成上述步骤。 Chunksize是指pandas 一次能读取到多少行csv文件。这个当然也是建立在RAM 内存容量的基础上。
假如我们认为数据呈现高斯分布时，我们可以在一个chunk 上，进行数据处理和视觉化，这样会提高准确率。

当数据稍微复杂时，例如呈现泊松分布时，我们最好能一块块筛选，然后把每一小块整合在一起。然后再进行分析。很多时候，我们往往删除太多的不相关列，或者删除有值行。我们可以在每个chunk 上，删除不相关数据，然后再把数据整合在一起，最后再进行数据分析。

代码如下：

删除数据

有时候，我们一眼就能看到需要分析的列。事实上，通常名字，账号等列，我们是不做分析的。

读取数据前，先跳过这些无用的列，可以帮我们节省很多内存。 Pandas 可以允许我们选择想要读取的列。

把包含无用信息的列删除掉，往往给我们节省了大量内存。

此外，我们还可以把有缺失值的行，或者是包含“NA” 的行删除掉。通过dropna()方法可以实现：

有几个非常有用的参数，可以传给dropna():

how: 可选项：“any”(该行的任意一列如果出现”NA”，删除该行)

“all” (只有某行所有数数据全部是”NA” 时才删除)

thresh: 设定某行最多包含多少个NA 时，才进行删除

subset: 选定某个子集，进行NA 查找

可以通过这些参数，尤其是thresh 和 subset 两个参数可以决定某行是否被删除掉。

Pandas 在读取信息的时候，无法删除列。但是我们可以在每个chunk 上，进行上述操作。

为列设定不同的数据类型

数据科学家新手往往不会对数据类型考虑太多。当处理数据越来越多时，就非常有必要考虑数据类型了。

行业常用的解决方法是从数据文件中，读取数据，然后一列列设置数据类型。但当数据量非常大时，我们往往担心内存空间不够用。

在CSV 文件中，例如某列是浮点数，它往往会占据更多的存储空间。例如，当我们下载数据来预测股票信息时，价格往往以32位浮点数形式存储。

但是，我们真的需要32位浮点数码？大多数情况下，股票价格以小数点后保留两位数据进行交易。即便我们想看到更精确的数据， 16位浮点数已经足够了。

我们往往会在读取数据的时候，设置数据类型，而不是保留数据原类型。那样的话，会浪费掉部分内存。

通过read_csv() 中设置dtype参数来完成数据类型设置。还可以设置字典类型，设置该列是键，设置某列是字典的值。

请看下面的pandas 例子：

文章到这里结束了！希望上述三个方法可以帮你节省时间和内存。

以上这篇pandas分批读取大数据集教程就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Pickle模块中的dump()和load()方法简介
Pickle模块实现了基本的数据序列化与反序列化操作，通过序列化操作，我们可以将程序中运行的对象信息转化为字节流保存到文件中去，永久存储在磁盘上，这篇文章主要介绍了Pickle模块中的dump()和load()方法介绍,需要的朋友可以参考下
2023-03-03
django的分页器Paginator 从django中导入类
这篇文章主要介绍了django的分页器Paginator 从django中导入类,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-07-07
python中关于tqdm的用法
这篇文章主要介绍了python中关于tqdm的用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-08-08
详解如何用Python实现感知器算法
今天给大家带来的是关于Python的相关知识,文章围绕着如何用Python实现感知器算法展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
2021-06-06
Python开发网站目录扫描器的实现
这篇文章主要介绍了Python开发网站目录扫描器的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-02-02
浅谈python中常用的excel模块库
本文主要介绍了python中常用的excel模块库，感兴趣的同学，可以参考下。
2021-06-06
$python去除删除数据中\u0000\u0001等unicode字符串的代码$
python去除删除数据中\u0000\u0001等unicode字符串的代码
这篇文章主要介绍了python去除删除数据中\u0000\u0001等unicode字符串的代码，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03
如何基于Python pygame实现动画跑马灯
这篇文章主要介绍了如何基于Python pygame实现动画跑马灯,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-11-11
详解Python如何求不同分辨率图像的峰值信噪比
这篇文章主要为大家详细介绍了如何利用Python中的 NumPy 和 OpenCV 库实现求不同分辨率图像的峰值信噪比，感兴趣的小伙伴可以跟随不想一起学习一下
2023-01-01
Python pytest装饰器总结(实例详解)
这篇文章主要介绍了Python pytest装饰器总结,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-04-04

pandas分批读取大数据集教程

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具