Pyspark读取parquet数据过程解析

 更新时间:2020年03月27日 11:31:22   作者:落日峡谷  
这篇文章主要介绍了pyspark读取parquet数据过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是:

可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量;压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间;只读取需要的列,支持向量运算,能够获取更好的扫描性能。

那么我们怎么在pyspark中读取和使用parquet数据呢?我以local模式,linux下的pycharm执行作说明。

首先,导入库文件和配置环境:

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多个python版本时需要指定

conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然后,使用spark进行读取,得到DataFrame格式的数据:host:port 属于主机和端口号

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而,DataFrame格式数据有一些方法可以使用,例如:

1.df.first() :显示第一条数据,Row格式

print(df.first())

2.df.columns:列名

3.df.count():数据量,数据条数

4.df.toPandas():从spark的DataFrame格式数据转到Pandas数据结构

5.df.show():直接显示表数据;其中df.show(n) 表示只显示前n行信息

6.type(df):显数据示格式

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python开发利器之ulipad的使用实践

    python开发利器之ulipad的使用实践

    Ulipad是一个国人limodou编写的专业Python编辑器,它基于wxpython开发的GUI(图形化界面)。下面这篇文章主要介绍了python开发利器之ulipad的使用实践,文中介绍的非常详细,对大家具有一定的参考价值,需要的朋友们下面来一起看看吧。
    2017-03-03
  • Python使用Keras OCR实现从图像中删除文本

    Python使用Keras OCR实现从图像中删除文本

    这篇文章主要为大家介绍了如何在Python中利用Keras OCR实现快速地从图像中删除文本,从而作为图像分类器的预处理步骤,需要的可以参考一下
    2022-03-03
  • Django REST framwork的权限验证实例

    Django REST framwork的权限验证实例

    这篇文章主要介绍了Django REST framwork的权限验证实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • Python浅析迭代器Iterator的使用

    Python浅析迭代器Iterator的使用

    这篇文章主要介绍了Python 迭代器Iterator详情,迭代器可以帮助我们解决面对复杂的数据场景时,快速简便的获取数据,下文关于其详细介绍,需要的小伙伴可以参考一下
    2022-07-07
  • python文件夹分区的实现方法实例

    python文件夹分区的实现方法实例

    这篇文章主要给大家介绍了关于python文件夹分区的实现方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • 基于Django websocket实现视频画面的实时传输功能(最新推荐)

    基于Django websocket实现视频画面的实时传输功能(最新推荐)

    Django Channels 是一个用于在 Django框架中实现实时、异步通信的扩展库,本文给大家介绍基于Django websocket实现视频画面的实时传输案例,本案例是基于B/S架构的视频监控画面的实时传输,使用django作为服务端的开发框架,需要的朋友可以参考下
    2023-06-06
  • python将Dataframe格式的数据写入opengauss数据库并查询

    python将Dataframe格式的数据写入opengauss数据库并查询

    这篇文章主要介绍了python将Dataframe格式的数据写入opengauss数据库并查询,文章介绍详细具有一定的参考价值,希望对你的学习有所帮助
    2022-04-04
  • Pygame改编飞机大战制作兔子接月饼游戏

    Pygame改编飞机大战制作兔子接月饼游戏

    一年中秋又快到了,今年加入了Python的学习行列,得益于Python的开发效率和易读性,网上写文章的次数多了起来,既然是中秋节那肯定要搞个应景的游戏才行
    2022-09-09
  • python os模块简单应用示例

    python os模块简单应用示例

    这篇文章主要介绍了python os模块简单应用,结合实例形式分析了Python os模块操作目录与路径相关函数与使用技巧,需要的朋友可以参考下
    2019-05-05
  • python框架django基础指南

    python框架django基础指南

    本文给大家汇总介绍了下python的MVC框架django的一些基础知识,非常的简单实用,希望对大家学习django能够有所帮助。
    2016-09-09

最新评论