Hadoop應(yīng)用開發(fā)與案例實戰(zhàn)(慕課版)
定 價:49.8 元
- 作者:穆建平 王建 商程
- 出版時間:2021/4/1
- ISBN:9787115537782
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:207
- 紙張:
- 版次:01
- 開本:16開
Hadoop是目前比較流行的大數(shù)據(jù)框架之一,可使用簡單的高級編程模型實現(xiàn)大型數(shù)據(jù)集的分布式存儲和處理。
本書以Hadoop的概念、集群搭建、核心組件、實戰(zhàn)案例等為主線,較為全面地介紹了Hadoop大數(shù)據(jù)存儲及處理技術(shù)的相關(guān)知識。全書共10章,前9章主要講解Hadoop基礎(chǔ),內(nèi)容包括初識Hadoop、Hadoop的安裝與配置、高可用與聯(lián)邦、分布式文件系統(tǒng)HDFS、集群資源管理系統(tǒng)YARN、分布式計算框架MapRecuer、Hadoop的I/O操作、Hadoop3.x新特性、Hadoop商業(yè)發(fā)行版等;第10章是Hadoop實戰(zhàn)案例,以實際Hadoop框架的運用為導(dǎo)向引入了三個實戰(zhàn)案例:文件合并及多目錄輸出、網(wǎng)頁域名分區(qū)統(tǒng)計以及電商平臺商品評價數(shù)據(jù)分析案例。
1、案例豐富、實操性強;
2、知識點全面,重點難點突出;
3、用詞容易理解;
4、教材配套全面,有知識點授課視頻做支撐;
5、浪潮集團真實項目案例,穿插到每個知識點;
浪潮優(yōu)派公司教學(xué)部總經(jīng)理助理,擁有多年大型軟件項目開發(fā)、管理及教學(xué)經(jīng)驗,具有豐富的軟件開發(fā)及教學(xué)經(jīng)驗。主要包括“華電煤業(yè)全面預(yù)算管理平臺”“河南煙草訂貨平臺”“高校畢業(yè)生就業(yè)信息網(wǎng)”“3G移動就業(yè)信息平臺”等大型應(yīng)用項目。
第 1章 初識Hadoop 9
1.1 Hadoop概述 9
1.1.1 Hadoop簡介 9
1.1.2 Hadoop的背景 10
1.1.3 Hadoop的發(fā)展歷程 11
1.1.4 Hadoop的特點 12
1.2 Hadoop核心組件 13
1.2.1 分布式文件系統(tǒng)HDFS 13
1.2.2 分布式計算框架MapReduce 15
1.2.3 集群資源管理器-YARN 16
1.3 Hadoop生態(tài)系統(tǒng)及相關(guān)技術(shù)簡介 17
1.4 Hadoop的應(yīng)用場景 20
本章小結(jié) 22
習(xí)題 22
第 2章 Hadoop安裝與配置 24
2.1 Hadoop的安裝方式 24
2.2 偽分布式安裝 25
2.2.1 安裝前的準(zhǔn)備工作 25
2.2.2 Hadoop安裝與配置 31
2.2.3 啟動與停止Hadoop 35
2.2.4 訪問Hadoop 37
2.3 完全分布式安裝 38
2.3.1 Hadoop集群規(guī)劃 39
2.3.2 安裝前的準(zhǔn)備工作 39
2.3.3 Hadoop安裝與配置 43
2.3.4 集群啟動與監(jiān)控 45
2.3.5 集群節(jié)點的添加與刪除 47
本章小結(jié) 50
習(xí)題 51
第3章 高可用與聯(lián)邦 52
3.1 高可用 52
3.2 為什么需要高可用 52
3.3 HDFS高可用 53
3.3.1 HDFS高可用運行流程 54
3.3.2 HDFS高可用環(huán)境搭建 55
3.4 YARN高可用 65
3.5 聯(lián)邦 69
本章小結(jié) 70
習(xí)題 70
第4章 分布式文件系統(tǒng)HDFS 71
4.1 HDFS概述 71
4.1.1 HDFS簡介 71
4.1.2 HDFS架構(gòu) 72
4.2 HDFS的基本概念 73
4.2.1 命名空間與塊存儲服務(wù) 73
4.2.2 數(shù)據(jù)塊 74
4.2.3 數(shù)據(jù)復(fù)制 75
4.2.4 心跳檢測與副本恢復(fù) 76
4.3 HDFS的數(shù)據(jù)讀寫流程 77
4.3.1 數(shù)據(jù)寫入流程 77
4.3.2 數(shù)據(jù)讀取流程 78
4.4 HDFS元數(shù)據(jù)管理機制 79
4.4.1 元數(shù)據(jù)持久化機制 80
4.4.2 元數(shù)據(jù)合并機制 81
4.5 HDFS Shell命令 83
4.5.1文件系統(tǒng)常用操作命令 83
4.5.2 常用管理命令 dfsadmin 87
4.6 開發(fā)環(huán)境搭建 90
4.6.1 maven簡介 90
4.6.2 基于Maven+Eclipse構(gòu)建Hadoop開發(fā)調(diào)試環(huán)境 91
4.7 Java API應(yīng)用 95
4.7.1 HDFS文件系統(tǒng)操作涉及的類 95
4.7.2 RPC的原理及應(yīng)用 99
本章小結(jié) 101
習(xí)題 102
第5章 集群資源管理系統(tǒng)YARN 103
5.1 YARN產(chǎn)生背景 103
5.2 YARN在共享集群模式中的應(yīng)用 104
5.3 YARN的設(shè)計思想 106
5.3.1 YARN的基本架構(gòu) 106
5.3.2 ResourceManager HA 108
5.4 YARN的工作流程 111
5.5 YARN的資源調(diào)度器 112
5.5.1 調(diào)度選項 112
5.5.2 FIFO Scheduler 113
5.5.3 Capacity Scheduler 113
5.5.4 Fair Scheduler 116
本章小結(jié) 122
習(xí)題 123
第6章 分布式計算框架MapReduce 124
6.1 MapReduce概述 124
6.2 map和reduce的處理過程 124
6.2.1 處理過程概述 124
6.2.2 MapReduce入門案例 126
6.2.3 關(guān)于shuffle 132
6.2.4 YARN對MapReduce的資源調(diào)度 134
6.2.5 map的本地化 135
6.3 MapReduce進階 135
6.3.1 Combiner 135
6.3.2 Partioner 136
6.3.3 MapReduce輸入的處理類 137
6.3.4 MapReduce輸出的處理類 138
6.4 案例 139
本章小結(jié) 153
習(xí)題 153
第7章 Hadoop的I/O操作 155
7.1 IO操作中的數(shù)據(jù)完整性檢查 155
7.2 I/O操作中的數(shù)據(jù)壓縮 156
7.2.1 壓縮算法 157
7.2.2 壓縮和解壓縮 157
7.3 Hadoop I/O序列化接口 159
7.3.1 序列化 159
7.3.2 Hadoop序列化 159
7.4自定義序列化類 163
7.5基于文件的數(shù)據(jù)結(jié)構(gòu) 165
7.5.1 SequenceFile 165
7.5.2 SequenceFileInputFormat 166
本章小結(jié) 166
習(xí)題 167
第8章 Hadoop 3.x新特性 168
8.1 Hadoop 3.x概述 168
8.2 Hadoop 3.x的改進 169
8.2.1 JDK升級 169
8.2.2 EC技術(shù) 169
8.2.3 YARN優(yōu)化 172
8.2.4 支持多NameNode 174
8.2.5 DataNode內(nèi)部負載均衡 177
8.2.6 端口號的改變 180
8.3 Hadoop 3.x其他新特性 181
8.3.1 shell腳本重寫 181
8.3.2 GPU和FPGA支持 181
本章小結(jié) 182
習(xí)題 182
第9章 Hadoop商業(yè)發(fā)行版 184
9.1 Hadoop集群管理的挑戰(zhàn) 184
9.2 CDH概述 184
9.3 Cloudera Manager概述 185
9.3.1 Cloudera Manager的架構(gòu) 186
9.3.2 Cloudera Manager中的基本概念 187
9.4 Cloudera Manager及CDH離線安裝部署 189
9.4.1 集群部署規(guī)劃 190
9.4.2 安裝前的準(zhǔn)備工作 191
9.4.3 前置軟件安裝 192
9.4.4 Cloudera Manager安裝與配置 194
9.4.5 CDH部署 196
9.4.6 Cloudera Manager搭建Hadoop集群 197
9.4.7 啟用HDFS HA和YARN HA 203
9.5 Cloudera Manager的功能 206
9.5.1 Cloudera Manager的基本核心功能 206
9.5.2 Cloudera Manager的高級功能 212
9.6 Hadoop其他商業(yè)發(fā)行版介紹 214
9.6.1 HDP 214
9.6.2 MapR Hadoop 215
9.6.3 華為Hadoop 216
本章小結(jié) 216
習(xí)題 216
第 10章 Hadoop實戰(zhàn)案例 217
10.1 項目背景 217
10.2 Apache Avro 217
10.2.1 Apache Avro概述 218
10.2.2 Schema 218
10.2.3 Avro序列化與反序列化案例 219
10.3 案例一:Avro文件合并多目錄輸出 223
10.3.1 需求概述 223
10.3.2 數(shù)據(jù)描述 224
10.3.3 設(shè)計思路分析 225
10.3.4 功能實現(xiàn) 226
10.4 案例二:網(wǎng)頁域名分區(qū)統(tǒng)計 233
10.4.1需求概述 233
10.4.2 數(shù)據(jù)描述 234
10.4.3 設(shè)計思路分析 238
10.4.4 功能實現(xiàn) 238
10.5 案例三:電商平臺商品評價數(shù)據(jù)分析 244
10.5.1需求描述 244
10.5.2 數(shù)據(jù)描述 245
10.5.3 設(shè)計思路分析 245
10.5.4 功能實現(xiàn) 246
本章小結(jié) 252
習(xí)題 252