本書從大數(shù)據(jù)的概念和特征開始講起,首先讓讀者對大數(shù)據(jù)有一個感性的認識;然后結(jié)合大數(shù)據(jù)平臺的各個模塊,詳細介紹了大數(shù)據(jù)的存儲、處理、分析、可視化等方面的原理和操作;最后介紹了大數(shù)據(jù)在各行業(yè)中的應(yīng)用,讓讀者更加充分地感受到大數(shù)據(jù)技術(shù)的優(yōu)勢,以及大數(shù)據(jù)應(yīng)用的價值。 本書適合高等院校相關(guān)專業(yè)的學生使用,也適合參加大數(shù)據(jù)技術(shù)培訓課程的人員使用,還可以作為從事ICT行業(yè)相關(guān)工作的人員和大數(shù)據(jù)技術(shù)愛好者的參考書。
1.淺入深出地介紹基礎(chǔ)理論,易于讀者學習、理解和掌握,保障基礎(chǔ)讀者無障礙理解。
2.本書的大綱結(jié)構(gòu)和文字描述由業(yè)內(nèi)專家執(zhí)筆,且內(nèi)容經(jīng)過多方專家反復論證推敲,力求嚴謹準確。
3.摒棄了以清單羅列知識點的生硬做法,按照大數(shù)據(jù)處理平臺、關(guān)鍵技術(shù)、計算框架、使用工具、應(yīng)用案例的順序展開,以大數(shù)據(jù)技術(shù)的基本理論為起點,逐漸深入介紹常用技術(shù)。
4.內(nèi)容完整性經(jīng)過反復推敲,涵蓋具有級職稱的讀者應(yīng)該掌握的技術(shù)知識。
5.以大數(shù)據(jù)技術(shù)、軟件、框架為模塊,逐步深入,介紹相關(guān)理論和應(yīng)用。
6.結(jié)合實際應(yīng)用,引用大數(shù)據(jù)在金融、電信、制造業(yè)、能源、醫(yī)療等行業(yè)的應(yīng)用案例,加深讀者的理解。
7.各章配有學習目標、總結(jié)、練習題及其答案,供讀者快速歸納、復習和檢驗本章所學內(nèi)容。
8.配套資源豐富,包含實驗手冊、視頻講解、授課課件(PPT)、綜合實訓。
黃史浩
多年的Hadoop大數(shù)據(jù)平臺企業(yè)業(yè)務(wù)應(yīng)用實踐,具有豐富的Hadoop平臺運維,開發(fā)與分析實戰(zhàn)經(jīng)驗 2. 主導過多個大型大數(shù)據(jù)項目的開發(fā),如維達國際大數(shù)據(jù)平臺、中國商品進出口交易中心ETL日志分析大數(shù)據(jù)平臺 3、多年大數(shù)據(jù)與數(shù)據(jù)挖掘等IT領(lǐng)域技術(shù)培訓經(jīng)驗,豐富的課程設(shè)計和授課經(jīng)驗。
第 1 章 大數(shù)據(jù)概述 0
11 大數(shù)據(jù)的概念與價值 2
111 大數(shù)據(jù)的基本概念 2
112 大數(shù)據(jù)的來源 4
113 大數(shù)據(jù)的價值 5
114 挖掘企業(yè)大數(shù)據(jù)價值的方式 7
12 大數(shù)據(jù)的關(guān)鍵技術(shù) 7
121 大數(shù)據(jù)采集、預處理、存儲與管理 8
122 大數(shù)據(jù)分析與挖掘 8
123 大數(shù)據(jù)可視化 9
13 大數(shù)據(jù)產(chǎn)業(yè) 9
131 數(shù)據(jù)提供 9
132 技術(shù)提供 10
133 服務(wù)提供 10
14 大數(shù)據(jù)應(yīng)用場景 11
15 本章總結(jié) 11
練習題 12
第 2 章 Hadoop 大數(shù)據(jù)處理平臺 14
21 Hadoop 平臺概述 16
211 Hadoop 起源及發(fā)展 16
212 Hadoop 特性 17
213 Hadoop 應(yīng)用現(xiàn)狀 17
214 Hadoop 版本及相關(guān)平臺 18
22 Hadoop 生態(tài)系統(tǒng) 18
221 HDFS 和 HBase 18
222 MapReduce 和 YARN 19
223 Hive 20
224 Sqoop 和 Flume 20
225 ZooKeeper 和 Oozie 20
226 Kerberos 和 LDAP 21
227 Impala 和 Solr 21
228 Kafka 21
23 Hadoop 安裝部署 22
231 Hadoop 規(guī)劃部署 22
232 Hadoop 的安裝方式 23
24 華為 FusionInsight HD 安裝部署 27
241 FusionInsight HD 簡介 27
242 FusionInsight HD 集成設(shè)計 29
243 FusionInsight HD 安裝部署 35
244 FusionInsight HD 重要參數(shù)配置 44
25 本章總結(jié) 45
練習題 45
第 3 章 HDFS 48
31 概述 50
311 DFS 的概念與作用 51
312 HDFS 概述 51
32 HDFS 的相關(guān)概念 52
321 HDFS 塊 52
322 NameNode 53
323 Secondary NameNode 54
324 DataNode 55
33 HDFS 體系架構(gòu)與原理 56
331 HDFS 體系架構(gòu) 56
332 HDFS 的高可用機制 56
333 HDFS 的目錄結(jié)構(gòu) 58
334 HDFS 的數(shù)據(jù)讀寫過程 61
34 HDFS 接口及其在 FusionInsight HD 編程中的實踐 63
341 HDFS 常用的 Shell 命令 63
342 HDFS 的 Web 界面 65
343 HDFS 的 Java API 及應(yīng)用實例 66
35 本章總結(jié) 72
練習題 73
第 4 章 MapReduce 和 YARN 76
41 MapReduce 技術(shù)原理 78
411 MapReduce 概述 79
412 Map 函數(shù)與 Reduce 函數(shù) 79
42 YARN 技術(shù)原理 80
421 YARN 的概述與應(yīng)用 80
422 YARN 的架構(gòu) 81
423 MapReduce 的計算過程 82
424 YARN 的資源調(diào)度 84
43 FusionInsight HD 中 MapReduce 的應(yīng)用 85
431 WordCount 實例分析 85
432 MapReduce 編程實踐 86
44 本章總結(jié) 93
練習題 93
第 5 章 HBase 96
51 HBase 概述與應(yīng)用 98
511 HBase 簡介 98
512 HBase 的特性 99
513 HBase 與關(guān)系數(shù)據(jù)庫的區(qū)別 100
514 HBase 的應(yīng)用場景 100
52 HBase 的架構(gòu)原理 101
521 HBase 的數(shù)據(jù)模型 101
522 表和 Region 102
523 HBase 的系統(tǒng)架構(gòu)與功能組件 103
524 HBase 的讀寫流程 104
525 HBase 的 Compaction 過程 106
53 FusionInsight HD 中 HBase 的編程實踐 107
531 FusionInsight HD 中 HBase 的常用參數(shù)配置 107
532 HBase 常用的 Shell 命令 109
533 HBase 常用的 Java API 及應(yīng)用實例 112
54 本章總結(jié) 131
練習題 131
第 6 章 Hive 134
61 Hive 概述 136
611 Hive 的基本概念及應(yīng)用 136
612 Hive 的特性 137
613 Hive 與傳統(tǒng)數(shù)據(jù)倉庫的區(qū)別 138
62 Hive 的架構(gòu)和數(shù)據(jù)存儲 138
621 Hive 的架構(gòu)原理 139
622 Hive 的數(shù)據(jù)存儲模型 141
623 HiveQL 編程 142
63 FusionInsight HD 中 Hive 的應(yīng)用實踐 148
631 FusionInsight HD 中 Hive 的常用參數(shù)配置 148
632 加載數(shù)據(jù)到 Hive 149
633 使用 HiveQL 進行數(shù)據(jù)分析 151
64 本章總結(jié) 156
練習題 156
第 7 章 Sqoop 和 Loader 158
71 Sqoop 概述 160
711 Sqoop 簡介與應(yīng)用 161
712 Sqoop 的功能與特性 161
713 Sqoop 與傳統(tǒng) ETL 的區(qū)別 162
72 FusionInsight HD 中 Loader 的應(yīng)用實踐 162
721 FusionInsight HD 中 Loader 與 Sqoop 的對比 163
722 FusionInsight HD 中 Loader 的參數(shù)配置 164
723 使用 Loader 進行數(shù)據(jù)轉(zhuǎn)換 165
724 Loader 常用的 Shell 命令 166
725 Loader 應(yīng)用實踐 168
73 本章總結(jié) 170
練習題 170
第 8 章 Flume 172
81 Flume 概述 174
811 Flume 簡介 174
812 Flume 的功能與特性 177
813 Flume 與其他主流開源日志收集系統(tǒng)的區(qū)別 178
82 FusionInsight HD 中 Flume 的應(yīng)用實踐 178
821 FusionInsight HD 中 Flume 的常用參數(shù)配置 179
822 Flume 常用的 Shell 命令 180
823 Flume 與 Kafka 結(jié)合進行日志處理 181
83 本章總結(jié) 184
練習題 185
第 9 章 Spark 186
91 Spark 概述 188
911 Spark 的概述與應(yīng)用 189
912 Scala 語言介紹 190
913 Spark 生態(tài)系統(tǒng)組件 190
914 Spark 與 Hadoop 的對比 191
92 Spark 技術(shù)架構(gòu) 192
921 Spark 的運行原理 192
922 RDD 概念與原理 194
923 Spark 的 3 種部署方式 196
924 使用開發(fā)工具測試 Spark 198
93 FusionInsight HD 中 Spark 的應(yīng)用實踐 199
931 運行 Spark Shell 199
932 進行 Spark RDD 操作 200
933 使用 Spark 客戶端工具運行 Spark 程序 202
94 Spark Streaming 206
941 Spark Streaming 的設(shè)計思想 206
942 Spark Streaming 的應(yīng)用實例 206
95 Spark SQL 210
951 Spark SQL 的功能 210
952 FusionInsight HD 中 Spark SQL 的應(yīng)用實例 210
96 Spark MLlib 212
961 機器學習簡介 212
962 Spark MLlib 的功能 213
97 Spark GraphX 213
971 圖計算簡介 213
972 Spark GraphX 功能簡介 214
98 本章總結(jié) 214
練習題 215
第 10 章 大數(shù)據(jù)流計算 216
101 流計算概述 218
1011 靜態(tài)數(shù)據(jù)和流數(shù)據(jù)的概念 219
1012 流計算的概念 219
1013 MapReduce 和流計算 220
1014 流計算框架 220
102 流計算的處理流程 221
1021 數(shù)據(jù)實時采集 221
1022 數(shù)據(jù)實時計算 221
1023 數(shù)據(jù)實時查詢 222
103 Streaming 流計算 222
1031 Streaming 簡介 222
1032 Streaming 的特點 225
1033 Streaming 中 FusionInsight HD 的應(yīng)用實踐 226
1034 Spark Streaming 與 Streaming 的差異 231
104 本章總結(jié) 232
練習題 233
第 11 章 數(shù)據(jù)可視化 234
111 可視化概述 236
1111 數(shù)據(jù)可視化簡介 237
1112 數(shù)據(jù)可視化的重要性 237
1113 可視化的發(fā)展歷程 238
1114 數(shù)據(jù)可視化的實現(xiàn)過程 239
112 可視化工具 240
1121 入門級工具(Excel) 240
1122 普通工具(R 語言) 240
1123 高級工具(Tableau 和 QlikView) 241
113 可視化的典型應(yīng)用 241
1131 可視化在醫(yī)學上的應(yīng)用 241
1132 可視化在工程中的應(yīng)用 242
1133 可視化在互聯(lián)網(wǎng)中的應(yīng)用 243
114 本章總結(jié) 243
練習題 244
第 12 章 大數(shù)據(jù)行業(yè)應(yīng)用 246
121 大數(shù)據(jù)在金融行業(yè)中的應(yīng)用 248
122 大數(shù)據(jù)在電信行業(yè)中的應(yīng)用 250
123 大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)中的應(yīng)用 253
124 本章總結(jié) 254
練習題 255
術(shù)語表 256
參考文獻 268