spark: RDD与DataFrame之间的相互转换方法

 更新时间:2018年06月07日 08:51:39   作者:birdlove1987  
今天小编就为大家分享一篇spark: RDD与DataFrame之间的相互转换方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架,但其经过了优化。DataFrames可以从各种各样的源构建,例如:结构化数据文件,Hive中的表,外部数据库或现有RDD。

DataFrame API 可以被Scala,Java,Python和R调用。

在Scala和Java中,DataFrame由Rows的数据集表示。

在Scala API中,DataFrame只是一个类型别名Dataset[Row]。而在Java API中,用户需要Dataset<Row>用来表示DataFrame。

在本文档中,我们经常将Scala/Java数据集Row称为DataFrames。

那么DataFrame和spark核心数据结构RDD之间怎么进行转换呢?

代码如下:

# -*- coding: utf-8 -*-
from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.sql import Row

if __name__ == "__main__":
 # 初始化SparkSession
 spark = SparkSession \
 .builder \
 .appName("RDD_and_DataFrame") \
 .config("spark.some.config.option", "some-value") \
 .getOrCreate()

 sc = spark.sparkContext

 lines = sc.textFile("employee.txt")
 parts = lines.map(lambda l: l.split(","))
 employee = parts.map(lambda p: Row(name=p[0], salary=int(p[1])))

 #RDD转换成DataFrame
 employee_temp = spark.createDataFrame(employee)

 #显示DataFrame数据
 employee_temp.show()

 #创建视图
 employee_temp.createOrReplaceTempView("employee")
 #过滤数据
 employee_result = spark.sql("SELECT name,salary FROM employee WHERE salary >= 14000 AND salary <= 20000")

 # DataFrame转换成RDD
 result = employee_result.rdd.map(lambda p: "name: " + p.name + " salary: " + str(p.salary)).collect()

 #打印RDD数据
 for n in result:
 print(n)

以上这篇spark: RDD与DataFrame之间的相互转换方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Linux中Python 环境软件包安装步骤

    Linux中Python 环境软件包安装步骤

    本文给大家分享的是在Linux系统中Python环境的安装步骤,以及常用的软件的安装升级,非常的实用,有需要的小伙伴可以参考下
    2016-03-03
  • Pytest测试报告工具Allure用法介绍

    Pytest测试报告工具Allure用法介绍

    这篇文章介绍了Pytest测试报告工具Allure的用法,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-07-07
  • python中pip无法正确安装或路径出错的解决方案

    python中pip无法正确安装或路径出错的解决方案

    这篇文章主要介绍了python中pip无法正确安装或路径出错的解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • Flask入门教程实例:搭建一个静态博客

    Flask入门教程实例:搭建一个静态博客

    这篇文章主要介绍了Flask入门教程实例:搭建一个静态博客,本文主要介绍flask框架的环境配置以及一个静态博客胡搭建实例,需要的朋友可以参考下
    2015-03-03
  • 基于python生成词云图的代码示例

    基于python生成词云图的代码示例

    这篇文章主要个介绍了如何基于python生成词云图的代码示例,文中有详细的代码示例喝图文讲解,对大家的学习或工作有一定的帮助,需要的朋友可以参考下
    2023-11-11
  • 为什么说Python可以实现所有的算法

    为什么说Python可以实现所有的算法

    在本篇文章里小编给各位整理的是关于一个Python就可以实现所有的算法的相关文章,需要的朋友们参考下。
    2019-10-10
  • Python如何根据时间序列数据作图

    Python如何根据时间序列数据作图

    这篇文章主要介绍了Python如何根据时间序列数据作图,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-05-05
  • 一个简单的python爬虫程序 爬取豆瓣热度Top100以内的电影信息

    一个简单的python爬虫程序 爬取豆瓣热度Top100以内的电影信息

    这篇文章主要为大家详细介绍了一个简单的python爬虫程序,爬取豆瓣热度Top100以内的电影信息,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-04-04
  • Python新版极验验证码识别验证码教程详解

    Python新版极验验证码识别验证码教程详解

    这篇文章主要介绍了Python新版极验验证码识别验证码,极验验证是一种在计算机领域用于区分自然人和机器人的,通过简单集成的方式,为开发者提供安全、便捷的云端验证服务
    2023-02-02
  • Python矩阵常见运算操作实例总结

    Python矩阵常见运算操作实例总结

    这篇文章主要介绍了Python矩阵常见运算操作,结合实例形式总结分析了Python矩阵的创建以及相乘、求逆、转置等相关操作实现方法,需要的朋友可以参考下
    2017-09-09

最新评论