课程名称:Spark大数据技术与应用 课程类别:必修
适用专业:大数据技术类相关专业 总学时:64学时 总学分:4.0学分
一、 课程的性质
本课程是为大数据技术类相关专业学生开设的课程。大数据技术蓬勃发展,基于开源技 术的Hadoop在行业中应用广泛。但是Hadoop本身还存在诸多缺陷,最主要的缺陷是其 MapReduce计算模型延迟过高,无法胜任实时、快速计算的需求。Spark的诞生弥补了 MapReduce的缺陷。Spark继承了 MapReduce分布式计算的优点并改进了 MapReduce明显 的缺陷。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce, Spark的中间 输出结果可以保存在内存中,从而大大减少了读写HDFS的次数,因此Spark能更好地适用 于数据挖掘与机器学习中需要迭代的算法。目前,Spark在企业中的运用越来越广泛,学习 Spark分布式计算框架已然是进入大数据行业所必不可少的一步。
二、 课程的任务
通过本课程的学习,使学生对Spark分布式计算框架有一个全面的理解,课程内容主要 包括了 Spark基本原理与架构、集群安装配置、Scala与Spark编程、Spark代表组件,完整 项目案例等精选内容。涉及的知识点简要精到,实践操作性强。
三、 教学内容及学时安排
序 号
章节名称
主要内容
教学目标
学时
1 Spark概述 2 Scala基础
3 Spark编程
4 Spark编程进阶 5 Spark SQL:结构化数据文件处理
6 Spark Streaming:实时计算框架 7 Spark GraphX:
图
计算框架
8 Spark MLlib:功
能强大的算法库
1. Spark基本概念 2. Spark发展和应用 3. Spark环境配置方法 4. Spark架构及原理
1. Scala 简介 2. Scala 特性
3. Scala的环境设置及安装方法 4. Scala类的定义和运行方法 5. Scala数据类型、函数、表达式的应用
6. Scala if判断和for循环 7.1. 从内存中已有数据创建Scala集合应用
RDD 2. 从外部存储创建RDD 3. RDD转化操作和行动操作方法 4. RDD键值对操作 5. 文件读取与存储
1, 下载与安装IntelliJ IDEA 2, Scala插件安装与使用 3, 配置Spark运行环境的方法 4, 运行Spark程序的方法 5, 持久化方法 6, 数据分区方法 1. Spark SQL 简介 2. Spark SQL CLI 配置 3. Spark SQL 与 Shell 交互 4. DataFrame基础操作方法
1. Spark Streaming 运行原理
2. Spark Streaming 使用方法 3. DStream编程模型基本方法 1. 图的基本概念 2. 图计算的应用 3. GraphX的基础概念 4. 图的创建与存储 5. 数据查询与数据转换
6. 结构转换与关联聚合 1. 机器学习
2. MLlib介绍和应用
1 .了解Spark概念 2. 掌握如何搭建 Spark分布式环境 3. 掌握 Spark RDD 的概念
4. 了解Spark的运行 流程和原理
1. 掌握Scala环境的 安装
2. 掌握Scala语言的 应用和编程
1. 掌握RDD的转化 操作和行动操作方 法
2. 掌握键值对RDD 的操作
3. 掌握文本文件的 读取和存储
1. 掌握如何在IDEA 中配置Spark编程环 境
2. 掌握Spark程序的 编写
掌握Spark SQL使用 方法
掌握 Spark Streaming 使用方法
掌握 Spark GraphX 使用方法
掌握 Spark MLlib 使 用方法
4
8
6
6
6
6
6
10
9 项目案例:餐饮 平台菜品智能推 荐
1. 常用推荐算法 2. 异常数据处理方法 3. 数据变换方法
1. 学习ALS算法 2. 掌握MLlib算法 包的使用
12
学时合计
64
四、考核方式
突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=出勤(10%) +平时作业与课堂练习(30%) +课程设计(60%)。
五、教材与参考资料
1.教材
肖芳,张良均.Spark大数据技术与应用[M].北京:人民邮电出版社.2018.
2.参考资料
[1]张良均,樊哲,位文超,刘名军.Hadoop与大数据挖掘[M].北京:机械工业出版 社.2015.
因篇幅问题不能全部显示,请点此查看更多更全内容