本书采用项目引导、任务驱动的体例编写,将理论与实践紧密结合,让学生在完成具体任务的过程中,深入理解大数据平台运维与部署的核心理念和技术要点。本书共分八个项目,包括初识数据分析、配置平台基础环境认知、Hadoop框架的部署、HDFS的使用、MapReduce认知、HBase的部署与使用、Hive的部署与使用、Spark的部署与使用等内容,涵盖了从基础知识到实践应用的方方面面。
教材简介
本书采用项目引导、任务驱动的体例编写,将理论与实践紧密结合,让学生在完成具体任务的过程中,深入理解大数据平台运维与部署的核心理念和技术要点。本书共分八个项目,包括初识数据分析、配置平台基础环境认知、Hadoop框架的部署、HDFS的使用、MapReduce认知、HBase的部署与使用、Hive的部署与使用、Spark的部署与使用等内容,涵盖了从基础知识到实践应用的方方面面。
项目一 初识数据分析
任务一 初识大数据
任务二 大数据的发展认知
项目二 平台基础环境配置
任务一 安装操作系统
任务二 配置静态IP及远程登录
项目三 Hadoop框架的部署
任务一 Hadoop的认知
任务二 Hadoop单机模式和伪分布模式的部署
任务三 Hadoop全分布模式的部署
项目四 HDFS的使用
任务一 HDFS的认知
任务二 使用HDFS的Web界面
任务三 使用Shell管理HDFS文件与目录
项目五 初识 MapReduce
任务一 MapReduce的认知
任务二 使用MapReduce实现词频统计
任务三 使用MapReduce完成电商销售数据的统计
项目六 HBase的部署与使用
任务一 HBase的认知
任务二 HBase单机模式和伪分布模式的部署
任务三 HBase完全分布模式的部署
任务四 利用Shell操作HBase
项目七 Hive的部署与使用
任务一 Hive的认知
任务二 Hive本地模式的部署
任务三 Hive远程模式的部署
任务四 利用Hive实现数据导入
任务五 利用Hive实现词频统计
项目八 Spark的部署与使用
任务一 Spark的认知
任务二 Spark Local的部署与操作
任务三 Spark Standalone的部署与操作
任务四 Spark on YARN的部署与操作
参考文献
1 安装CentOS Stream 9操作系统
2 配置静态IP及远程登录
3 Hadoop的特点和优势
4 Hadoop单机模式和伪分布模式的部署
5 Hadoop全分布模式的部署
6 HDFS读写文件的流程
7 使用HDFS的Web界面
8 使用Shell管理HDFS文件与目录
9 MapReduce的概念与原理
10 使用MapReduce 编程实现词频统计
11 使用MapReduce 完成电商销售数据的统计
12 HBase系统架构
13 HBase单机模式和伪分布模式的部署
14 HBase完全分布模式的部署
15 HBase Shell 环境下表的操作
16 Hive本地模式的部署
17 Hive远程模式的部署
18 利用Hive 实现数据导入
19 利用Hive 实现词频统计
20 Spark Local的部署与操作
21 Spark Standalone的部署与操作
22 Spark on YARN的部署与操作