本書圍繞 Hadoop 大數(shù)據(jù)平臺及其生態(tài)系統(tǒng)組件的部署與運維,采用 “任務(wù)驅(qū)動+知識準備+任務(wù)實施+考核評價" 的項目化模式組織各單元的內(nèi)容。全書分為 11 個單元,主要內(nèi)容包括大數(shù)據(jù)簡介、Hadoop偽分布式安裝部署、Hadoop 集群部署與監(jiān)控、HDFS 分布式存儲、使用 MapReduce 實現(xiàn)電商銷售數(shù)據(jù)的統(tǒng)計、Hadoop 高可用集群規(guī)劃部署、分布式數(shù)據(jù)庫 HBase 部署與應(yīng)用、數(shù)據(jù)倉庫 Hive 部署與應(yīng)用、Spark計算框架部署、Flink流式計算框架部署與操作、020外賣服務(wù)大數(shù)據(jù)平臺部署運維綜合實訓(xùn)。本書可作為高等職業(yè)院校大數(shù)據(jù)及計算機相關(guān)專業(yè)的專業(yè)課教材, 也可作為大數(shù)據(jù)培訓(xùn)班的輔導(dǎo)教材, 還可供從事大數(shù)據(jù)技術(shù)及應(yīng)用的專業(yè)人員和廣大大數(shù)據(jù)平臺愛好者自學(xué)選用參考。
郭建磊,女,高級信息系統(tǒng)項目管理師,曾在國內(nèi)大型IT企業(yè)具有九年多的工作經(jīng)驗,實戰(zhàn)經(jīng)驗豐富。進入高職院校工作后擔任大數(shù)據(jù)技術(shù)專業(yè)負責人,榮獲全國職業(yè)院校技能大賽"大數(shù)據(jù)技術(shù)與應(yīng)用”賽項優(yōu)秀指導(dǎo)教師。指導(dǎo)學(xué)生獲得大數(shù)據(jù)國賽一等獎1項、國賽二等獎1項,省賽一等獎2項,近三年以來,指導(dǎo)學(xué)生在省級以上大數(shù)據(jù)技能競賽共獲獎18項。本書作者也是高職?拼髷(shù)據(jù)技術(shù)專業(yè)國家教學(xué)標準主要執(zhí)筆人之一。
單元1 大數(shù)據(jù)簡介
任務(wù) 認識大數(shù)據(jù) .
1.1.1 大數(shù)據(jù)的概念及特點
1.1.2 大數(shù)據(jù)的發(fā)展背景
1.1.3 大數(shù)據(jù)技術(shù)的發(fā)展歷程
1.1.4 大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀
1.1.5 大數(shù)據(jù)的未來
1.1.6 大數(shù)據(jù)人才需求與崗位介紹
單元 2 Hadoop 偽分布式安裝部署
任務(wù)2.1 搭建Hadoop偽分布式
2.1.1 Hadoop的發(fā)展 歷程 與應(yīng)用現(xiàn)狀
2.1.2 Hadoop 的優(yōu) 點與核心 組成
2.1.3 Hadoop 的安裝方式
2.1.4 Hadoop 各版本選擇
2.1.5 Hadoop 偽分布式搭建的基本流程.
任務(wù) 2.2 啟動與訪問 Hadoop
2.2.1 Hadoop 啟動/停止 的操作命令
2.2.2 基于 Web UI 監(jiān)控 Hadoop 平 臺
單元 3 Hadoop 集群部署與監(jiān)控
任務(wù)3.1 搭建Hadoop集群
3.1.1 集群概述
3 .1.2 Hadoop 集群的 特點
3.1.3 H adoop 集群規(guī) 劃
3.1.4 Hadoop 集群部署 的過程 ..
任務(wù) 3.2 監(jiān)控 Hadoop 集群..
單元 4 HDFS 分布式存儲
任務(wù)4.1 認識HDFS
4.1.1 HDFS的原理
4.1.2 HDFS 讀寫文件 的流程
4.1.3 HDFS 的特點及其不適合的 應(yīng)用場景
任務(wù) 4.2 HDFS 的文件 系統(tǒng)操作
任務(wù) 4.3 HDFS 的系統(tǒng)管理操作
4.3.1 HDFS 的安全模 式操作
4.3.2 HDFS 增加擴容操作..............
4.3.3 HDFS 數(shù)據(jù)平衡
4.3.4 HDFS 存儲策略..
4.3.5 HDFS 快照
任務(wù)4.4 部署本地開發(fā)環(huán)境
4.4.1 認識JDK
4.4.2 認 識 Maven
4.4.3 認 識 IDEA
任務(wù) 4.5 HDFS 的 Java API 操作
單元5 使用MapReduce 實現(xiàn)電商銷售數(shù)據(jù)的統(tǒng)計
任務(wù) 5.1 認識 MapReduce
5.1.1 MapReduce 的概 念與原理
5.1.2 MapReduce 的體 系 架構(gòu)
5.1.3 MapReduce 的發(fā)展現(xiàn)狀
5.1.4 YARN 的運行機制
任務(wù) 5.2 使用 MapReduce 實現(xiàn)詞頻的統(tǒng)計
5.2.1 MapReduce 數(shù)據(jù)處理的流程.
5.2.2 MapReduce 相關(guān) Java API 及應(yīng)用
5.2.3 MapReduce 驅(qū)動類
任務(wù) 5.3 使用 MapReduce 完成電商銷售數(shù)據(jù)的統(tǒng)計
5.3.1 MapReduce 完成電 商銷售數(shù) 據(jù)統(tǒng)計的 流程
5.3.2 自定義分區(qū)
5.3.3 自 定 義 數(shù) 據(jù) 類 型
任務(wù) 5.4 MapReduce 任務(wù)監(jiān)控..
5.4.1 MapReduce 任務(wù)監(jiān)控的方式
5.4.2 任務(wù)失敗的幾種情況
5.4.3 MapReduce日志文件
單元 6 Hadoop 高可用集群規(guī)劃部署
任務(wù) 6.1 部署與訪問 ZooKeeper
6.1.1 ZooKeeper 概述及其特性
6.1.2 ZooKeeper 的應(yīng) 用場 景
6.1.3 ZooKeeper 的工作原理
6.1.4 ZooKeeper 的部 署方式
任務(wù) 6.2 部署 Hadoop 高可用集群
6.2.1 Hadoop 高可 用集群的 工作原理..
6.2.2 Hadoop 高可用集 群的主要配置項及含義.
單元 7 分布式數(shù)據(jù)庫HBase 部署與應(yīng)用
任務(wù) 7.1 搭建偽分布式 HBase
7.1.1 HBase 的原理
7.1.2 HBase 的體系架構(gòu)
7.1.3 HBase 與 JDK、Hadoop 版本的兼容關(guān)系
7.1.4 HBase 偽分布式部署準備 ...
任務(wù) 7.2 部署 HBase 完全分布式集群
7.2.1 HBase 集群規(guī)劃
7.2.2 HBase 的主要配置項及含義.
7.2.3 HBase 訪問命令
7.2.4 基于 Web UI 監(jiān)控 HBase 的 狀 態(tài)
任務(wù) 7.3 HBase 集群運維
7.3.1 HBase 監(jiān)控工具介紹
7.3.2 HBase 集群優(yōu)化
單元 8 數(shù)據(jù)倉庫Hive 部署與應(yīng)用
任務(wù) 8.1 部署 Hive 本地模式
8.1.1 Hive 介紹
8.1.2 Hive 的安裝方式
任務(wù) 8.2 部署 Hive 遠程模式·....
單元 9 Spark 計算框架部署..
任務(wù) 9.1 部署與操作 Spark Local
任務(wù) 9.2 部署與操作 Spark Standalone
9.2.1 Spark 運行流程
9.2.2 Spark 配置文件與配置參數(shù)
任務(wù) 9.3 部署與操作 Spark on YARN
單元 10 Flink 流式計算框架部署與操作.
任務(wù) 10.1 部署本地模式 Flink
10.1.1 Flink 介紹
10.1.2 Flink 的部署模式
任務(wù) 10.2 部署獨立模式Flink集群
10.2.1 Flink的體系架構(gòu)
10.2.2 Flink 集群的運行模式
任務(wù) 10.3 部署并運行 Flink on YARN 集群
10.3.1 Flink on YARN 的運行方法
10.3.2 故 障調(diào)試與恢復(fù)
單元 11 0 20 外賣服務(wù)大數(shù)據(jù)平臺部署運維綜合實訓(xùn)...