大数据之Spark基础环境

更新时间：2023年04月06日 11:41:37 作者：敲键盘的杰克

本篇文章开始介绍Spark基础知识，包括Spark诞生的背景，应用环境以及入门案例等，感兴趣的同学可以参考阅读本文

前言

本篇文章开始介绍Spark基础知识，包括Spark诞生的背景，应用环境以及入门案例等，还是Spark学习之旅前，得先安装Spark环境才行，具体安装步骤可以看Spark环境搭建，让我们接着往下聊。

一、Spark概述

（一）Spark是什么

Spark是Apache顶级的开源项目，主要用于处理大规模数据的分析引擎，该引擎的核心数据结构是RDD弹性分布式数据集，这是一种分布式内存抽象，程序员可以使用RDD在大规模集群中做内存运算，并具有一定的容错方式；

Spark保留了MapReduce的分布式并行计算的优点，还改进了其较为明显的缺陷，中间数据存储在内存中，大大提高了运行速度，同时还提供了丰富的API，提高了开发速度。

（二）Spark的四大特点

Spark底层使用Scala语言，是一种面向对象、函数式编程语言，能够像操作本地集合一样轻松的操作分布式数据集，Spark具有运行速度快、易用性好、通用性强和随处运行等特点；

（1）速度快，Spark支持内存计算，并且通过DAG有向无环图执行引擎支持无环数据流，相对MapReduce来说，Spark处理数据时，可以将中间处理结果数据存储到内存中，Spark每个任务以线程方式执行，并不是像MapReduce以进程方式执行，线程的启动和销毁相对于进程来说比较快；
（2）易于使用，Spark 支持Java、Scala、Python 、R和SQL语言等多种语言；
（3）通用型强，Spark 还提供包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库，可以在同一个应用中无缝地使用这些工具库；
（4）运行方式多，Spark 支持多种运行方式，包括在 Hadoop 和 Mesos 上，也支持 Standalone的独立运行模式，同时也可以运行在云Kubernetes上，获取数据的方式也很多，支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

（三）Spark的风雨十年

Spark的发展主要经历过几大阶段：

（1）2009年Spark起源于加州伯克利分校；
（2）2013年被捐赠给Apache；
（3）2014年称为Apache顶级项目；
（4）2016年Spark2.0发布
（5）2019年Spark3.0发布

（四）Spark框架模块

整个Spark 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX和 Spark MLlib，大部分模块的能力都在建立在其核心引擎之上；

（1）Spark Core，该模块的数据结构是RDD，实现了Spark的基本功能，包括RDD、任务调度、内存管理、错误恢复以及与存储系统交互等；
（2）Spark SQL，该模块的数据结构主要是DataFrame，是Spark用来操作结构化数据的程序包，通过该模块，可以直接使用SQL操作数据；
（3）Spark Streaming，其主要的数据结构是DStream离散化流，是Spark对实时数据进行流式计算的组件；
（4）Spark GraphX，该模块的数据结构为RDD或者DataFrame，是Spark中用于图计算的组件，性能良好，拥有丰富的功能和运算符，能在海量数据上自如地运行复杂的图算法；
（5）Spark MLlib，该模块的数据结构也是RDD或者DataFrame，主要用于机器学习，提供了常见的机器学习功能的程序库，包括分类、回归、聚类等，同时也支持模型评估和数据导入等功能。

（五）Spark通信框架

整个Spark 框架通信模块为Netty，Spark 1.6版本引入了Netty，在Spark 2.0之后，完全使用Netty，并移除了akka。

总结

Spark保留了MapReduce的分布式计算，基于内存计算，提高的数据的计算能力；
其主要模块有Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX和 Spark MLlib，不仅可以通过SQL的方式操作数据，还可以对实时数据进行流式计算，同时也支持机器学习；
Spark的特点主要是计算速度快，支持多种编程语言，并且提供了众多友好的API，使得Spark的学习成本大大降低了。

以上就是大数据之Spark基础环境的详细内容，更多关于Spark基础环境的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Navicat Premium 15 工具自动被杀毒防护软件删除的两种解决方法
这篇文章主要介绍了Navicat Premium 15 工具自动被杀毒防护软件删除的两种解决方法，本文通过图文并茂的形式给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友参考下吧
2023-02-02
[数据库] 通用分页存储过程
[数据库] 通用分页存储过程...
2007-02-02
达梦数据库DISQL连接数据库与执行SQL、脚本的方法图文详解
DIsql是DM数据库的一个命令行客户端工具,跟Oracle数据库的sqlplus工具一样,用来与 DM 数据库服务器进行交互,这篇文章主要给大家介绍了关于达梦数据库DISQL连接数据库与执行SQL、脚本的方法,需要的朋友可以参考下
2024-09-09
在PostgreSQL的基础上创建一个MongoDB的副本的教程
这篇文章主要介绍了在PostgreSQL的基础上创建一个MongoDB的副本的教程,使在使用NoSQL的同时又能用到PostgreSQL中的东西,需要的朋友可以参考下
2015-04-04
图文详解如何在navicat中导入excel表格数据
Navicat可以方便的操作各种数据库,也提供了丰富的导入导出功能,下面这篇文章主要给大家介绍了关于如何在navicat中导入excel表格数据的相关资料,需要的朋友可以参考下
2023-02-02
通过navicat导入sql文件的操作方法
在很多项目当中都有sql文件导入到MySQL数据库的需要,因为有sql数据库文件,这个项目才能正常运行起来,那么现在就来学习一下怎么导入sql文件到navicat里面吧,需要的朋友可以参考下
2024-03-03
基于navicat连接登录windows10本地wsl数据库
这篇文章主要介绍了基于navicat连接登录windows10本地wsl数据库,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-11-11
聊聊Navicat统计的行数竟然和表实际行数不一致的问题
Navicat作为数据库管理工具，在业界广受欢迎,这篇文章主要介绍了Navicat统计的行数竟然和表实际行数不一致的问题,需要的朋友可以参考下
2021-12-12
Sql Server、Access数据排名的实现方法(例如：成绩排名)
在很多时候，我们需要统计数据的排名情况，最常见的是成绩、投票数等等的。
2009-06-06
DBeaver一款替代Navicat的数据库可视化工具
这篇文章主要介绍了DBeaver一款替代Navicat的数据库可视化工具,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-11-11