定 價:42 元
叢書名:工業(yè)和信息化精品系列教材——大數據技術
- 作者:于麗娜李瑋左楠
- 出版時間:2024/3/1
- ISBN:9787115620965
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:128開
本書依托一個大數據綜合項目—電影市場的預測,按照大數據技術在該項目開發(fā)中的應用過程,將本書內容分為10個工作任務,包括初識Hadoop、搭建Hadoop集群、數據上傳、配置Hadoop高可用、數據清洗、使用MapReduce統(tǒng)計電影上映情況與排序、數據建倉、數據分析、數據遷移和數據可視化。書中的具體工作任務有助于讀者綜合運用大數據知識及各種工具軟件,實現大數據項目整體過程的操作。
本書附有配套資源,包括源代碼、教學設計、教學課件等。
本書可作為高等院校本、專科大數據相關專業(yè)的教材,也可供大數據相關從業(yè)人員參考。
本書是作者將軟件公司任職時的項目開發(fā)與職業(yè)院校多年教學經驗的總結。與目前市面上的大部分大數據技術相關圖書相比,本書通過一個項目的完整實現過程,展示了大數據各技術的應用過程,更側重對學生實操性的指導
劉志勇,研究生學歷,高級工程師,河北工業(yè)職業(yè)技術大學骨干教師,主要研究方向是裝備信息化、大數據及其應用,教授:大數據導論、大數據存儲與管理、大數據處理與分析等課程,出版教材兩部,包括《大數據存儲》《武器裝備供應商關系管理》和《預先維修理論與技術》。
工作任務1
初識Hadoop 1
任務概述 1
學習目標 1
任務1.1 了解大數據 1
【知識鏈接】 1
1.1.1 什么是大數據 1
1.1.2 大數據的特征 2
1.1.3 研究大數據的意義 3
任務1.2 了解大數據的應用場景 4
【知識鏈接】 4
1.2.1 醫(yī)療行業(yè)的應用 4
1.2.2 金融行業(yè)的應用 5
1.2.3 零售行業(yè)的應用 5
任務1.3 了解Hadoop 6
【知識鏈接】 6
1.3.1 Hadoop的發(fā)展歷程 6
1.3.2 Hadoop的優(yōu)勢 7
1.3.3 Hadoop的生態(tài)體系 8
1.3.4 Hadoop的版本 10
任務小結 12
課后習題 12
相關閱讀—“第七次全國人口普查”中的
大數據技術應用 13
工作任務2
搭建Hadoop集群 14
任務概述 14
學習目標 14
預備知識—集群和虛擬機 14
任務2.1 安裝虛擬機 16
【任務描述】 16
【知識鏈接】 16
2.1.1 VMware軟件 16
2.1.2 Linux操作系統(tǒng) 16
2.1.3 Hadoop集群 17
【任務實施】 17
任務2.2 克隆虛擬機 23
【任務描述】 23
【知識鏈接】 23
2.2.1 克隆和備份的區(qū)別 23
2.2.2 VMware的克隆類型 24
【任務實施】 24
任務2.3 網絡配置 25
【任務描述】 25
【知識鏈接】 26
【任務實施】 26
任務2.4 SSH服務配置 29
【任務描述】 29
【知識鏈接】 29
【任務實施】 29
任務2.5 Hadoop集群搭建 32
【任務描述】 32
【知識鏈接】 32
【任務實施】 32
任務小結 37
課后習題 38
相關閱讀—名副其實的“網絡大國” 39
工作任務3
數據上傳 40
任務概述 40
學習目標 40
預備知識—HDFS概述 40
任務3.1 使用Shell命令將電影數據上傳
到Hadoop 42
【任務描述】 42
【知識鏈接】 42
3.1.1 HDFS架構組成 42
3.1.2 HDFS的Shell操作 43
【任務實施】 45
任務3.2 使用Java API上傳電影數據 46
【任務描述】 46
【知識鏈接】 46
3.2.1 HDFS寫數據流程 46
3.2.2 HDFS讀數據流程 47
3.2.3 NameNode和Secondary
NameNode工作機制 47
3.2.4 DataNode工作機制 49
【任務實施】 49
任務小結 51
課后習題 51
相關閱讀—根服務器 52
工作任務4
配置Hadoop高可用 53
任務概述 53
學習目標 53
預備知識—服務器的可用性和高可用性 53
任務4.1 配置ZooKeeper集群 54
【任務描述】 54
【知識鏈接】 54
4.1.1 Hadoop中的單點故障 54
4.1.2 ZooKeeper組件 54
【任務實施】 55
任務4.2 配置HDFS-HA集群 57
【任務描述】 57
【知識鏈接】 57
【任務實施】 58
任務4.3 配置HDFS-HA集群自動故障
轉移 61
【任務描述】 61
【知識鏈接】 61
4.3.1 自動故障轉移機制概述 61
4.3.2 ZKFC 62
【任務實施】 63
任務小結 64
課后習題 65
相關閱讀—航天裝備的高可用 65
工作任務5
數據清洗 66
任務概述 66
學習目標 66
預備知識—數據清洗概述 66
任務5.1 清洗電影數據 67
【任務描述】 67
【知識鏈接】 67
5.1.1 MapReduce組件 67
5.1.2 MapReduce編程思想 68
5.1.3 Hadoop序列化 70
【任務實施】 71
任務5.2 數據分區(qū) 78
【任務描述】 78
【知識鏈接】 78
5.2.1 切片與MapTask并行度決定
機制 78
5.2.2 MapReduce工作流程 79
【任務實施】 81
任務小結 82
課后習題 82
相關閱讀—深度學習開源平臺飛槳 83
工作任務6
使用MapReduce統(tǒng)計電影上映情況與排序 84
任務概述 84
學習目標 84
預備知識—數據統(tǒng)計概述 84
任務6.1 統(tǒng)計每部電影上映的次數 85
【任務描述】 85
【任務實施】 85
任務6.2 統(tǒng)計每部電影的上映天數和平均
票房 88
【任務描述】 88
【任務實施】 88
任務6.3 按平均票房降序排列 90
【任務描述】 90
【任務實施】 91
任務小結 94
課后習題 94
相關閱讀—許寶?J,中國統(tǒng)計學家的
先驅 94
工作任務7
數據建倉 96
任務概述 96
學習目標 96
預備知識—數據庫與數據倉庫 96
任務7.1 安裝與配置Hive 97
【任務描述】 97
【知識鏈接】 97
7.1.1 Hive概述 97
7.1.2 Hive和數據庫比較 98
7.1.3 Hive架構原理 99
【任務實施】 101
任務7.2 將元數據遷移到MySQL 101
【任務描述】 101
【任務實施】 102
任務7.3 使用Hive進行數據建倉 104
【任務描述】 104
【知識鏈接】 104
7.3.1 HQL的數據類型 104
7.3.2 HQL的數據定義語言 106
7.3.3 HQL的數據操作語言 109
【任務實施】 110
任務小結 111
課后習題 111
相關閱讀—數據庫泄露 111
工作任務8
數據分析 112
任務概述 112
學習目標 112
預備知識—數據分析概述 112
任務8.1 查詢某年全年電影數據 113
【任務描述】 113
【知識鏈接】 113
8.1.1 Hive數據導出 113
8.1.2 Hive查詢 113
【任務實施】 120
任務8.2 統(tǒng)計周平均票房 121
【任務描述】 121
【知識鏈接】 121
【任務實施】 121
任務8.3 統(tǒng)計北京和上海某年一季度票房
收入 122
【任務描述】 122
【任務實施】 122
任務小結 127
課后習題 127
相關閱讀—誠信意識 127
工作任務9
數據遷移 128
任務概述 128
學習目標 128
預備知識—數據遷移概述 128
任務9.1 安裝和配置Sqoop 129
【任務描述】 129
【知識鏈接】 129
【任務實施】 130
任務9.2 遷移清洗后的電影數據 131
【任務描述】 131
【知識鏈接】 131
9.2.1 導入數據 131
9.2.2 導出數據 133
【任務實施】 133
任務9.3 遷移日平均票房數據 134
【任務描述】 134
【任務實施】 134
任務9.4 遷移周平均票房數據 135
【任務描述】 135
【任務實施】 135
任務9.5 遷移北京和上海某年一季度票房
數據 136
【任務描述】 136
【任務實施】 136
任務小結 137
課后習題 137
相關閱讀—刪庫事件 138
工作任務10
數據可視化 139
任務概述 139
學習目標 139
預備知識—數據可視化概述 139
任務10.1 使用Spring Boot搭建Web
系統(tǒng) 140
【任務描述】 140
【任務實施】 140
任務10.2 顯示全部電影數據 143
【任務描述】 143
【任務實施】 144
任務10.3 使用柱狀圖顯示電影的日平均
票房 146
【任務描述】 146
【任務實施】 146
任務10.4 使用餅圖顯示電影的周平均
票房 150
【任務描述】 150
【任務實施】 150
任務10.5 使用折線圖顯示北京和上海
某年一季度電影票房走勢 153
【任務描述】 153
【任務實施】 153
任務小結 157
課后習題 157
相關閱讀—中華人民共和國2022年國民
經濟和社會發(fā)展統(tǒng)計公報 158