Hadoop大數(shù)據(jù)技術(shù)與項(xiàng)目實(shí)戰(zhàn)
定 價(jià):59 元
- 作者:王小潔
- 出版時(shí)間:2023/8/1
- ISBN:9787121458965
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:308
- 紙張:
- 版次:01
- 開本:16開
本書由校企“雙元”合作開發(fā),以企業(yè)真實(shí)項(xiàng)目的實(shí)施流程為主線,通過(guò)“電商平臺(tái)用戶行為數(shù)據(jù)分析”項(xiàng)目實(shí)戰(zhàn),貫穿Hadoop大數(shù)據(jù)核心技術(shù),包括項(xiàng)目需求、大數(shù)據(jù)平臺(tái)部署、數(shù)據(jù)采集、離線數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與開發(fā)和項(xiàng)目數(shù)據(jù)可視化展示。本書內(nèi)容主要涉及VMware、Xshell、IDEA等軟件的安裝配置;Hadoop分布式集群環(huán)境搭建; Flume、Kafka、Hive、Sqoop、ZooKeeper等Hadoop生態(tài)組件的基本工作原理、搭建及配置方法;使用Flume-Kafka-Flume架構(gòu)實(shí)現(xiàn)數(shù)據(jù)采集;Hive離線數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與開發(fā);使用pyecharts工具進(jìn)行數(shù)據(jù)可視化展示。本書為省級(jí)精品在線開放課程配套教材,同時(shí)配有課程標(biāo)準(zhǔn)、軟件安裝包、項(xiàng)目源代碼、習(xí)題庫(kù)、微課視頻等,可以幫助讀者更好地學(xué)習(xí)本書內(nèi)容。本書可以作為高等職業(yè)院校大數(shù)據(jù)、云計(jì)算、軟件技術(shù)等相關(guān)專業(yè)教材,也可以作為從事大數(shù)據(jù)平臺(tái)運(yùn)維、大數(shù)據(jù)分析、云計(jì)算應(yīng)用等技術(shù)人員的參考用書。
王小潔,女,副教授,山西職業(yè)技術(shù)學(xué)院,山西職業(yè)技術(shù)學(xué)院大數(shù)據(jù)技術(shù)專業(yè)是國(guó)家"雙高”建設(shè)專業(yè)群的龍頭專業(yè),與華為、新華三、中軟國(guó)際等知名企業(yè)開展校企合作,在人才培養(yǎng)模式創(chuàng)新、課程教學(xué)資源建設(shè)、教材與教法改革、教師教學(xué)創(chuàng)新團(tuán)隊(duì)等方面均進(jìn)行改革創(chuàng)新。大數(shù)據(jù)技術(shù)專業(yè)每年招生200余人,具有一定 的專業(yè)規(guī)模。
緒 論 1
學(xué)習(xí)目標(biāo) 1
重點(diǎn)難點(diǎn) 1
學(xué)習(xí)方法 1
思考與練習(xí) 2
模塊1 項(xiàng)目需求 3
學(xué)習(xí)目標(biāo) 3
項(xiàng)目概述 3
1.1 項(xiàng)目業(yè)務(wù)背景 3
1.2 項(xiàng)目實(shí)施計(jì)劃 5
1.2.1 項(xiàng)目實(shí)施流程規(guī)劃 5
1.2.2 技術(shù)選型及版本 6
1.2.3 項(xiàng)目實(shí)施的教學(xué)路徑 7
1.3 項(xiàng)目數(shù)據(jù)字典介紹 8
1.3.1 數(shù)據(jù)源數(shù)據(jù)結(jié)構(gòu)字典 8
1.3.2 Hive表數(shù)據(jù)字典 13
素養(yǎng)園地 17
項(xiàng)目總結(jié) 17
思考與練習(xí) 17
模塊2 大數(shù)據(jù)平臺(tái)部署 20
學(xué)習(xí)目標(biāo) 20
項(xiàng)目概述 20
2.1 大數(shù)據(jù)相關(guān)開發(fā)軟件安裝 20
2.2 Linux系統(tǒng)環(huán)境配置 28
2.2.1 安裝虛擬機(jī) 28
2.2.2 克隆虛擬機(jī) 50
2.2.3 虛擬機(jī)免密碼登錄配置 57
2.2.4 Linux項(xiàng)目路徑規(guī)劃 70
2.3 Hadoop分布式集群環(huán)境搭建 73
2.3.1 JDK安裝配置 73
2.3.2 Hadoop框架介紹及組成 77
2.3.3 HDFS集群配置 79
2.3.4 YARN集群配置 89
2.3.5 HDFS Shell命令行操作 95
2.3.6 HDFS客戶端開發(fā)環(huán)境配置及測(cè)試 98
2.3.7 HDFS API基本操作 115
2.3.8 MapReduce原理 121
2.3.9 MapReduce案例——詞頻統(tǒng)計(jì) 122
2.4 Hive數(shù)據(jù)倉(cāng)庫(kù)服務(wù)配置 131
2.4.1 MySQL環(huán)境配置 131
2.4.2 Hive環(huán)境配置 135
2.4.3 Hive與MySQL整合操作及Hive服務(wù)啟動(dòng) 138
2.4.4 HQL語(yǔ)句基本操作 141
2.4.5 HQL統(tǒng)計(jì)分析案例 143
2.5 Flume原理及安裝部署 144
2.6 Sqoop原理及應(yīng)用 145
2.6.1 Sqoop原理及安裝部署 146
2.6.2 Sqoop數(shù)據(jù)遷移案例 147
2.7 ZooKeeper集群環(huán)境搭建 151
2.8 Kafka集群環(huán)境搭建及應(yīng)用 154
2.8.1 Kafka集群環(huán)境搭建 154
2.8.2 Kafka常用命令及使用方法 157
素養(yǎng)園地 159
項(xiàng)目總結(jié) 160
思考與練習(xí) 161
模塊3 數(shù)據(jù)采集 165
學(xué)習(xí)目標(biāo) 165
項(xiàng)目概述 165
3.1 項(xiàng)目數(shù)據(jù)源及產(chǎn)生方法 165
3.2 Flume腳本設(shè)計(jì) 167
3.2.1 Flume采集原理及流程 167
3.2.2 Flume數(shù)據(jù)采集腳本設(shè)計(jì) 170
3.2.3 攔截器鏈的創(chuàng)建流程 172
3.2.4 ETL攔截器業(yè)務(wù)邏輯分析 182
3.2.5 分流標(biāo)記攔截器業(yè)務(wù)邏輯分析 183
3.2.6 Flume數(shù)據(jù)采集執(zhí)行腳本及實(shí)現(xiàn) 184
3.2.7 Flume數(shù)據(jù)消費(fèi)腳本設(shè)計(jì) 187
3.2.8 Flume數(shù)據(jù)消費(fèi)執(zhí)行腳本及實(shí)現(xiàn) 191
素養(yǎng)園地 195
項(xiàng)目總結(jié) 195
思考與練習(xí) 195
模塊4 離線數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與開發(fā) 198
學(xué)習(xí)目標(biāo) 198
項(xiàng)目概述 198
4.1 離線數(shù)據(jù)倉(cāng)庫(kù)概述 198
4.2 ODS層設(shè)計(jì)與開發(fā) 199
4.3 DWD層設(shè)計(jì)與開發(fā) 204
4.3.1 項(xiàng)目JSON解析函數(shù)及應(yīng)用 204
4.3.2 啟動(dòng)日志表設(shè)計(jì)及數(shù)據(jù)加載 206
4.4 DWS層設(shè)計(jì)與開發(fā) 209
4.5 DWT層設(shè)計(jì)與開發(fā) 212
4.5.1 HQL關(guān)聯(lián)查詢(1) 212
4.5.2 HQL關(guān)聯(lián)查詢(2) 216
4.5.3 HQL關(guān)聯(lián)查詢(3) 218
4.5.4 設(shè)備主題表設(shè)計(jì)及數(shù)據(jù)加載 219
4.6 ADS層設(shè)計(jì)與開發(fā) 222
4.6.1 活躍用戶數(shù)據(jù)表設(shè)計(jì)及數(shù)據(jù)加載 223
4.6.2 每日新增用戶數(shù)據(jù)表設(shè)計(jì)及數(shù)據(jù)加載 224
4.6.3 沉默用戶數(shù)據(jù)表設(shè)計(jì)及數(shù)據(jù)加載 226
4.6.4 本周回流用戶數(shù)據(jù)表設(shè)計(jì)及數(shù)據(jù)加載 228
4.6.5 用戶留存率數(shù)據(jù)表設(shè)計(jì)及數(shù)據(jù)加載 229
素養(yǎng)園地 243
項(xiàng)目總結(jié) 243
思考與練習(xí) 243
模塊5 項(xiàng)目數(shù)據(jù)可視化展示 246
學(xué)習(xí)目標(biāo) 246
項(xiàng)目概述 246
5.1 創(chuàng)建MySQL數(shù)據(jù)表 246
5.1.1 大數(shù)據(jù)報(bào)表系統(tǒng) 246
5.1.2 MySQL數(shù)據(jù)表的創(chuàng)建 247
5.2 Sqoop數(shù)據(jù)遷移 248
5.3 數(shù)據(jù)可視化 250
5.3.1 pyecharts可視化工具介紹 251
5.3.2 導(dǎo)入數(shù)據(jù)、繪制大屏標(biāo)題 269
5.3.3 繪制柱狀圖 283
5.3.4 繪制象形柱狀圖、水球圖 287
5.3.5 繪制柱狀圖與折線圖的疊加圖 291
5.3.6 繪制輪播圖 294
5.3.7 數(shù)據(jù)大屏展示 297
素養(yǎng)園地 301
項(xiàng)目總結(jié) 301
思考與練習(xí) 301
課程學(xué)習(xí)成果評(píng)價(jià) 304
參考文獻(xiàn) 306