SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程

更新时间：2021年08月10日 12:03:24 作者：大数据老哥

本文给大家介绍使用idea开发Spark SQL 的详细过程，本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友参考下吧

1.使用IDEA开发Spark SQL

1.1创建DataFrame/DataSet

1、指定列名添加Schema

2、通过StrucType指定Schema

3、编写样例类，利用反射机制推断Schema

1.1.1指定列名添加Schema

//导包
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
//代码
// 1.创建SparkSession
    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
// 2.使用spark 获取sparkContext 上下文对象
    val sc = spark.sparkContext
// 3.使用SparkContext 读取文件并按照空格切分 返回RDD
    val rowRDD: RDD[(Int, String, Int)] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
    import spark.implicits._
//5.将RDD 转换为DataFrame 指定元数据信息
    val dataFrame = rowRDD.toDF("id","name","age")
//6.数据展示
    dataFrame.show()

1.1.2StructType指定Schema

//导包
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
//编写代码
//1.实例SparkSession
    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
//2.根据SparkSession获取SparkContext 上下文对象
    val sc = spark.sparkContext
// 3.使用SparkContext读取文件并按照空开切分并返回元组
    val rowRDD = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Row(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
    import spark.implicits._
//5.使用StructType 添加元数据信息
    val schema = StructType(List(
      StructField("id", IntegerType, true),
      StructField("name", StringType, true),
      StructField("age", IntegerType, true)
    ))
//6.将数据与元数据进行拼接 返回一个DataFrame
    val dataDF = spark.createDataFrame(rowRDD,schema)
//7.数据展示
    dataDF.show()

1.1.3反射推断Schema

//导包
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
//定义单例对象
  case class Person(Id:Int,name:String,age:Int)
//编写代码
//1.实例sparkSession
    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
//2.通过sparkSession获取sparkContext 上下文对象
    val sc = spark.sparkContext
//3.通过sparkContext 读取文件并按照空格切分 将每一个数据保存到person中
    val rowRDD: RDD[Person] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Person(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
    import spark.implicits._
//5.将rowRDD转换为dataFrame
    val dataFrame = rowRDD.toDF()
    //6.数据展示
    dataFrame.show()

到此这篇关于SparkSQL使用IDEA快速入门DataFrame与DataSet的文章就介绍到这了,更多相关SparkSQL快速入门内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

SpringBoot使用Redis缓存的实现方法
这篇文章主要介绍了SpringBoot使用Redis缓存的实现方法,需要的朋友可以参考下
2018-02-02
MyBatis使用嵌套查询collection和association的实现
本文详细介绍了使用MyBatis框架进行数据库操作时,如何利用collection标签实现一对多的嵌套查询和使用association标签实现一对一的嵌套查询,感兴趣的可以了解一下
2024-09-09
Java微服务Nacos Config配置中心超详细讲解
配置文件相对分散。在一个微服务架构下，配置文件会随着微服务的增多变的越来越多，而且分散在各个微服务中，不好统一配置和管理。每一个环境所使用的配置理论上都是不同的，一旦需要修改，就需要我们去各个微服务下手动维护
2023-02-02
Java中的RestTemplate使用详解
这篇文章主要介绍了Java中的RestTemplate使用详解,Spring内置了RestTemplate作为Http请求的工具类,简化了很多操作,虽然Spring5推出了WebClient,但是整体感觉还是RestTemplate用起来更简单方便一些,需要的朋友可以参考下
2023-10-10
Spring Data JPA 如何使用QueryDsl查询并分页
这篇文章主要介绍了Spring Data JPA 如何使用QueryDsl查询并分页，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-11-11
Java中的static关键字用法总结
这篇文章主要介绍了Java中的static关键字用法总结,static是Java50个关键字之一,static关键字可以用来修饰代码块表示静态代码块,修饰成员变量表示全局静态成员变量,修饰方法表示静态方法,需要的朋友可以参考下
2023-11-11
Java 认识异常并掌握使用
所谓异常是指程序在运行时出现错误时提示调用者的机制，异常的种类有很多，不同种类的异常有不同的含义，也有不同的处理方式，通读本篇对大家的学习或工作具有一定的价值，需要的朋友可以参考下
2021-09-09
springboot+kafka中@KafkaListener动态指定多个topic问题
这篇文章主要介绍了springboot+kafka中@KafkaListener动态指定多个topic问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-12-12
教你如何用Eclipse创建一个Maven项目
这篇文章主要介绍了教你如何用Eclipse创建一个Maven项目,文中有非常详细的代码示例,对正在入门Java的小伙伴们是非常有帮助的哟,需要的朋友可以参考下
2021-05-05
SpringBoot中的yml文件中读取自定义配置信息及遇到问题小结
这篇文章主要介绍了SpringBoot中的yml文件中读取自定义配置信息,本文通过示例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2023-06-06