Spark大数据分析实战【1.0】

张开发

• 2026/4/20 10:55:41 • 15 分钟阅读

分享文章

第1章 Spark简介本章主要介绍Spark框架的概念、生态系统、架构及RDD等，并围绕Spark的BDAS项目及其子项目进行了简要介绍。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，本章只进行简要介绍，后续章节会有详细阐述。1.1 初识SparkSpark是基于内存计算的大数据并行计算框架，因为它基于内存计算，所以提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。1.Spark执行的特点Hadoop中包含计算框架MapReduce和分布式文件系统HDFS。Spark是MapReduce的替代方案，而且兼容HDFS、Hive等分布式存储层，融入Hadoop的生态系统，并弥补MapReduce的不足。（1）中间结果输出Spark将执行工作流抽象为通用的有向无环图执行计划（DAG），可以将多Stage的任务串联或者并行执行，而无需将Stage的中间结果输出到HDFS中，类似的引擎包括Flink、Dryad、Tez。（2）数据格式和内存布局Spark抽象出分布式内存存储结构弹性分布式数据集RDD，可以理解为利用分布式的数组来进行数据的存储。RDD能支持粗粒度写操作，但对于读取操作，它可以精确到每条记录。Spark的特性是能够控制数据在不同节点上的分区，用户可以自定义分区策略。（3）执行策略Spark执行过程中不同Stage之间需要进行Shuffle。Shuffle是连接有依赖的Stage的桥梁，上游Stage输出到下游Stage中必须经过Shuffle这个环节，通过Shuffle将相同的分组数据拆分后聚合到同一个节点再处理。Spark Shuffle支持基于Hash或基于排序的分布式聚合机制。（4）任务调度的开销Spark采用了事件驱动的类库AKKA来启动任务，通过线程池的复用线程来避免系统启动和切换开销。2.Spark的优势Spark的一站式解决方案有很多的优势，分别如下所述。（1）打造全栈多计算范式的高效数据流水线支持复杂查询与数据分析任务。在简单的“Map”及“Reduce”操作之外，Spark还支持SQL查询、流式计算、机器学习和图算法。同时，用户可以在同一个工作流中无缝搭配这些计算范式。（2）轻量级快速处理Spark代码量较小，这得益于Scala语言的简洁和丰富表达力，以及Spark通过External DataSource API充分利用和集成Hadoop等其他第三方组件的能力。同时Spark基于内存计算，可通过中间结果缓存在内存来减少磁盘I/O以达到性能的提升。（3）易于使用，支持多语言Spark支持通过Scala、Java和Python编写程序，这允许开发者在自己熟悉的语言环境下进行工作。它自带了80多个算子，同时允许在Shell中进行交互式计算。用户可以利用Spark像书写单机程序一样书写分布式程序，轻松利用Spark搭建大数据内存计算平台并充分利用内存计算，实现海量

Spark大数据分析实战【1.0】

最新文章

OneNote到Markdown迁移终极指南：5种专业转换策略全解析

VMware虚拟机磁盘管理实战：.vmdk文件的拆分与合并操作指南

DC-DC电源芯片选型实战：从需求分析到精准替换的完整路径

Axios拦截器里的小秘密：如何自动处理POST请求的JSON/FormData格式转换？

Bilibili视频下载神器：3分钟掌握B站高清视频批量下载技巧

暗黑2重制版Botty终极指南：从零开始掌握高效自动化刷宝

推荐文章

工业通信协议：Modbus与OPC UA的解析与实现

Verilog仿真翻车现场：Testbench里这些‘坑’你踩过几个？（含$monitor、defparam避坑指南）

Python自动化新手福音：用uiautomator2+Weditor搞定安卓APP元素定位（保姆级避坑）

Path of Building完全指南：5步掌握流放之路最强Build规划工具

保姆级避坑指南：在Ubuntu 16.04上搞定Kinect v2驱动与ORB-SLAM2环境搭建

Java CompletableFuture 并发链式任务管理

相关文章

分享文章

更多文章

科研绘图救星：5分钟用MATLAB scatter3搞定论文里的三维数据可视化

ANSYS Fluent仿真前传：用ICEM为周期性传热案例划分高质量非结构网格的实战记录

告别繁琐SQL！Spring Boot 3.2 + MybatisPlus 3.5.x 配置与常用注解避坑指南

Kerberos运维踩坑实录：从JDK版本到DNS解析，这10个报错我帮你趟平了

3步彻底告别Dell G15散热烦恼：开源热控中心的终极解决方案

STM32F0 HAL库SPI+DMA实战：从波形分析到极致优化的完整心路历程

CN3322 PFM 升压型两节电池充电管理集成电路

别再傻傻分不清！病毒、蠕虫、木马，一次搞懂它们怎么“搞你”电脑的

DbVisualizer Pro永久激活指南：从JRE配置到license生成（Linux版）

实战：用ORB-SLAM3和USB摄像头搭建你的第一个单目/双目视觉SLAM Demo

【HFP】规范精讲[24]: 蓝牙HFP术语宝典

暗黑破坏神2角色编辑器：你的私人装备实验室