极客-零基础入门 Spark-666资源站

最近更新：2026年5月5日

极客-零基础入门 Spark

268。

资源价格: 19.8金币
VIP会员:免费
立即升级VIP会员，终身会员免费下载全站3W+各类资源，永久有效

升级VIP会员

本站所发布的一切视频课程仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站所有课程来自网络，版权争议与本站无关。如有侵权请联系邮箱：823810067@qq.com 我们将第一时间处理！

课程包更新

mp4格式

超清高清

资料齐全

课程简介：

课程模块设计

结合 Spark 最常用的计算子框架，这门课设计为 4 个模块：

基础知识模块：从一个叫作“Word Count”的小项目开始，详细地讲解 RDD 常用算子的含义、用法与适用场景，以及 RDD 编程模型、调度系统、Shuffle 管理、内存管理等核心原理，帮你打下坚实的理论基础。

Spark SQL 模块：从“小汽车摇号”项目入手，带你熟悉 Spark SQL 开发 API，为你讲解 Spark SQL 的核心原理与优化过程，以及 Spark SQL 与数据分析有关的部分，如数据的转换、清洗、关联、分组、聚合、排序，等等。

Spark MLlib 模块：从“房价预测”这个小项目入手，带你了解 Spark 在机器学习中的应用，深入学习 Spark MLlib 丰富的特征处理函数和它支持的模型与算法，并带你了解 Spark + XGBoost 集成是如何帮助开发者应对大多数的回归与分类问题。

Structured Streaming 模块：重点讲解 Structured Streaming 是怎么同时保证语义一致性与数据一致性的，以及如何应对流处理中的数据关联，并通过 Kafka + Spark 这对“Couple”的系统集成，来演示流处理中的典型计算场景。

课程目录：

├── 01-开篇词(1讲)
│ ├── 开篇词丨入门Spark，你需要学会“三步走”.html
│ └── 开篇词丨入门Spark，你需要学会“三步走”.m4a
├── 02-基础知识(1讲)
│ ├── 01丨Spark：从“大数据的HelloWorld”开始.html
│ ├── 01丨Spark：从“大数据的HelloWorld”开始.m4a
│ ├── 02丨RDD与编程模型：延迟计算是怎么回事？.html
│ ├── 02丨RDD与编程模型：延迟计算是怎么回事？.m4a
│ ├── 03丨RDD常用算子（一）：RDD内部的数据转换.html
│ ├── 03丨RDD常用算子（一）：RDD内部的数据转换.m4a
│ ├── 04丨进程模型与分布式部署：分布式计算是怎么回事？.html
│ ├── 04丨进程模型与分布式部署：分布式计算是怎么回事？.m4a
│ ├── 05丨调度系统：DAG、Stages与分布式任务.html
│ ├── 05丨调度系统：DAG、Stages与分布式任务.m4a
│ ├── 06丨Shuffle管理：为什么Shuffle是性能瓶颈？.html
│ ├── 06丨Shuffle管理：为什么Shuffle是性能瓶颈？.m4a
│ ├── 07丨RDD常用算子（二）：Spark如何实现数据聚合？.html
│ ├── 07丨RDD常用算子（二）：Spark如何实现数据聚合？.m4a
│ ├── 08丨内存管理：Spark如何使用内存？.html
│ ├── 08丨内存管理：Spark如何使用内存？.m4a
│ ├── 09丨RDD常用算子（三）：数据的准备、重分布与持久化.html
│ ├── 09丨RDD常用算子（三）：数据的准备、重分布与持久化.m4a
│ ├── 10丨广播变量&累加器：共享变量是用来做什么的？.m4a
│ ├── 10丨广播变量-累加器：共享变量是用来做什么的？.html
│ ├── 11丨存储系统：数据到底都存哪儿了？.html
│ ├── 11丨存储系统：数据到底都存哪儿了？.m4a
│ ├── 12丨基础配置详解：有哪些配置项是你必须要关注的？.html
│ └── 12丨基础配置详解：有哪些配置项是你必须要关注的？.m4a
├── 03-Spark SQL (4讲)
│ ├── 13丨让我们从《小汽车摇号分析》开始.html
│ ├── 13丨让我们从《小汽车摇号分析》开始.m4a
│ ├── 14丨DataFrame与SparkSQL的由来.html
│ ├── 14丨DataFrame与SparkSQL的由来.m4a
│ ├── 15丨数据源与数据格式：DataFrame从何而来？.html
│ ├── 15丨数据源与数据格式：DataFrame从何而来？.m4a
│ ├── 16丨数据转换：如何在DataFrame之上做数据处理？.html
│ ├── 16丨数据转换：如何在DataFrame之上做数据处理？.m4a
│ ├── 17丨数据关联：不同的关联形式与实现机制该怎么选？.html
│ ├── 17丨数据关联：不同的关联形式与实现机制该怎么选？.m4a
│ ├── 18丨数据关联优化：都有哪些Join策略，开发者该如何取舍？.html
│ ├── 18丨数据关联优化：都有哪些Join策略，开发者该如何取舍？.m4a
│ ├── 19丨配置项详解：哪些参数会影响应用程序执行性能？.html
│ ├── 19丨配置项详解：哪些参数会影响应用程序执行性能？.m4a
│ ├── 20丨Hive+Spark强强联合：分布式数仓的不二之选.html
│ ├── 20丨Hive+Spark强强联合：分布式数仓的不二之选.m4a
│ ├── 21丨SparkUI（上）：如何高效地定位性能问题？.html
│ ├── 21丨SparkUI（上）：如何高效地定位性能问题？.m4a
│ ├── 22丨SparkUI（下）：如何高效地定位性能问题？.html
│ └── 22丨SparkUI（下）：如何高效地定位性能问题？.m4a
├── 04-SparkMLlib(2讲)
│ ├── 23丨SparkMLlib：从“房价预测”开始.html
│ ├── 23丨SparkMLlib：从“房价预测”开始.m4a
│ ├── 24丨特征工程（上）：有哪些常用的特征处理函数？.html
│ ├── 24丨特征工程（上）：有哪些常用的特征处理函数？.m4a
│ ├── 25丨特征工程（下）：有哪些常用的特征处理函数？.html
│ ├── 25丨特征工程（下）：有哪些常用的特征处理函数？.m4a
│ ├── 26丨模型训练（上）：决策树系列算法详解.html
│ ├── 26丨模型训练（上）：决策树系列算法详解.m4a
│ ├── 27丨模型训练（中）：回归、分类和聚类算法详解.html
│ ├── 27丨模型训练（中）：回归、分类和聚类算法详解.m4a
│ ├── 28丨模型训练（下）：协同过滤与频繁项集算法详解.html
│ ├── 28丨模型训练（下）：协同过滤与频繁项集算法详解.m4a
│ ├── 29丨SparkMLlibPipeline：高效开发机器学习应用.html
│ └── 29丨SparkMLlibPipeline：高效开发机器学习应用.m4a
├── 05-特别放送(1讲)
│ ├── 用户故事丨小王：保持空杯心态，不做井底之蛙.html
│ └── 用户故事丨小王：保持空杯心态，不做井底之蛙.m4a
├── 06-StructuredStreaming(1讲)
│ ├── 30丨StructuredStreaming：从“流动的WordCount”开始.html
│ ├── 30丨StructuredStreaming：从“流动的WordCount”开始.m4a
│ ├── 31丨新一代流处理框架：Batchmode和Continuousmode哪家强？.html
│ ├── 31丨新一代流处理框架：Batchmode和Continuousmode哪家强？.m4a
│ ├── 32丨Window操作&Watermark：流处理引擎提供了哪些优秀机制？.html
│ ├── 32丨Window操作&Watermark：流处理引擎提供了哪些优秀机制？.m4a
│ ├── 33丨流计算中的数据关联：流与流、流与批.html
│ ├── 33丨流计算中的数据关联：流与流、流与批.m4a
│ ├── 34丨Spark+Kafka：流计算中的“万金油”.html
│ └── 34丨Spark+Kafka：流计算中的“万金油”.m4a
├── 08-特别放送(1讲)
│ ├── 用户故事丨小王：保持空杯心态，不做井底之蛙.html
│ └── 用户故事丨小王：保持空杯心态，不做井底之蛙.m4a
└── 09-结束语(2讲)
├── 结束语丨进入时间裂缝，持续学习.html
└── 结束语丨进入时间裂缝，持续学习.m4a