spark: RDD与DataFrame之间的相互转换方法

更新时间：2018年06月07日 08:51:39 作者：birdlove1987

今天小编就为大家分享一篇spark: RDD与DataFrame之间的相互转换方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架，但其经过了优化。DataFrames可以从各种各样的源构建，例如：结构化数据文件，Hive中的表，外部数据库或现有RDD。

DataFrame API 可以被Scala，Java，Python和R调用。

在Scala和Java中，DataFrame由Rows的数据集表示。

在Scala API中，DataFrame只是一个类型别名Dataset[Row]。而在Java API中，用户需要Dataset<Row>用来表示DataFrame。

在本文档中，我们经常将Scala/Java数据集Row称为DataFrames。

那么DataFrame和spark核心数据结构RDD之间怎么进行转换呢？

代码如下：

# -*- coding: utf-8 -*-
from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.sql import Row

if __name__ == "__main__":
 # 初始化SparkSession
 spark = SparkSession \
 .builder \
 .appName("RDD_and_DataFrame") \
 .config("spark.some.config.option", "some-value") \
 .getOrCreate()

 sc = spark.sparkContext

 lines = sc.textFile("employee.txt")
 parts = lines.map(lambda l: l.split(","))
 employee = parts.map(lambda p: Row(name=p[0], salary=int(p[1])))

 #RDD转换成DataFrame
 employee_temp = spark.createDataFrame(employee)

 #显示DataFrame数据
 employee_temp.show()

 #创建视图
 employee_temp.createOrReplaceTempView("employee")
 #过滤数据
 employee_result = spark.sql("SELECT name,salary FROM employee WHERE salary >= 14000 AND salary <= 20000")

 # DataFrame转换成RDD
 result = employee_result.rdd.map(lambda p: "name: " + p.name + " salary: " + str(p.salary)).collect()

 #打印RDD数据
 for n in result:
 print(n)

以上这篇spark: RDD与DataFrame之间的相互转换方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Linux中Python 环境软件包安装步骤
本文给大家分享的是在Linux系统中Python环境的安装步骤，以及常用的软件的安装升级，非常的实用，有需要的小伙伴可以参考下
2016-03-03
Pytest测试报告工具Allure用法介绍
这篇文章介绍了Pytest测试报告工具Allure的用法，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-07-07
python中pip无法正确安装或路径出错的解决方案
这篇文章主要介绍了python中pip无法正确安装或路径出错的解决方案，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-02-02
Flask入门教程实例：搭建一个静态博客
这篇文章主要介绍了Flask入门教程实例：搭建一个静态博客,本文主要介绍flask框架的环境配置以及一个静态博客胡搭建实例,需要的朋友可以参考下
2015-03-03
基于python生成词云图的代码示例
这篇文章主要个介绍了如何基于python生成词云图的代码示例,文中有详细的代码示例喝图文讲解,对大家的学习或工作有一定的帮助,需要的朋友可以参考下
2023-11-11
为什么说Python可以实现所有的算法
在本篇文章里小编给各位整理的是关于一个Python就可以实现所有的算法的相关文章，需要的朋友们参考下。
2019-10-10
Python如何根据时间序列数据作图
这篇文章主要介绍了Python如何根据时间序列数据作图,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-05-05
一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息
这篇文章主要为大家详细介绍了一个简单的python爬虫程序，爬取豆瓣热度Top100以内的电影信息，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-04-04
Python新版极验验证码识别验证码教程详解
这篇文章主要介绍了Python新版极验验证码识别验证码，极验验证是一种在计算机领域用于区分自然人和机器人的，通过简单集成的方式，为开发者提供安全、便捷的云端验证服务
2023-02-02
Python矩阵常见运算操作实例总结
这篇文章主要介绍了Python矩阵常见运算操作,结合实例形式总结分析了Python矩阵的创建以及相乘、求逆、转置等相关操作实现方法,需要的朋友可以参考下
2017-09-09

spark: RDD与DataFrame之间的相互转换方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具