Hadoop大數(shù)據(jù)集群部署及數(shù)據(jù)存儲項目化教程(張立輝)
定 價:48 元
- 作者:張立輝 主編
- 出版時間:2024/4/1
- ISBN:9787122448583
- 出 版 社:化學工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:212
- 紙張:
- 版次:01
- 開本:16開
本書從實用角度出發(fā),圍繞Linux 操作系統(tǒng)和Hadoop 集群部署,從虛擬機安裝入手,結合典型項目和案例,較為全面地介紹了大數(shù)據(jù)開發(fā)技術平臺Hadoop 及其生態(tài)系統(tǒng)的相關知識。主要內(nèi)容包括大數(shù)據(jù)技術中的Hadoop 集群部署、HDFS、MapReduce、Hive、HBase和Sqoop 等。全書所有知識點都結合具體的編程示例講解,重要知識點配有視頻講解。
本書可作為高等職業(yè)院校大數(shù)據(jù)技術、軟件技術、計算機網(wǎng)絡技術、人工智能技術等專業(yè)的教材,也可作為大數(shù)據(jù)愛好者的參考書,同時也可作為企業(yè)培訓教材。
第1章 Hadoop 概述 1
1.1 大數(shù)據(jù)認知 1
1.1.1 大數(shù)據(jù)的定義 1
1.1.2 大數(shù)據(jù)的應用領域 2
1.1.3 大數(shù)據(jù)的特征 4
1.1.4 大數(shù)據(jù)的技術架構 5
1.2 Hadoop 認知 7
1.2.1 Hadoop 的發(fā)展史 7
1.2.2 Hadoop 的特點 9
1.2.3 Hadoop 的生態(tài)系統(tǒng) 10
1.2.4 Hadoop 的核心架構 11
1.3 Hadoop 的安裝和配置 12
1.3.1 VMWare 的安裝 12
1.3.2 Ubuntu 系統(tǒng)的安裝 13
1.3.3 Linux 常用命令 15
1.3.4 JDK 安裝和配置 16
1.3.5 Hadoop 的安裝 18
課后練習 19
第2章 Hadoop 集群部署 20
2.1 Linux 環(huán)境設置 20
2.1.1 創(chuàng)建用戶(組) 20
2.1.2 Windows 和Linux 系統(tǒng)間文件傳輸 22
2.1.3 更新apt 24
2.1.4 vim 編輯器的應用 25
2.1.5 網(wǎng)絡配置 25
2.2 Hadoop 偽分布式搭建 27
2.2.1 環(huán)境變量的配置 27
2.2.2 SSH 安裝 28
2.2.3 core-site.xml 配置文件 30
2.2.4 hdfs-site.xml 配置文件 30
2.2.5 Hadoop 偽分布式運行實例 31
2.3 Yarn 認知 33
2.3.1 初識Yarn 33
2.3.2 Yarn 基本服務組件 33
2.3.3 Yarn 執(zhí)行過程 34
2.4 Hadoop 分布式搭建 35
2.4.1 部署前準備 35
2.4.2 網(wǎng)絡配置 37
2.4.3 配置文件的設置 37
2.4.4 分布式部署 38
課后練習 39
第3章 分布式文件系統(tǒng)HDFS 41
3.1 HDFS 認知 42
3.1.1 HDFS 的了解 42
3.1.2 HDFS 的特性 43
3.1.3 HDFS 的設計思想 44
3.1.4 HDFS 的核心概念 44
3.2 HDFS 常用shell 命令 47
3.2.1 HDFS 查看命令 47
3.2.2 HDFS 目錄操作命令 48
3.2.3 文件操作 49
3.3 HDFS 基礎編程 52
3.3.1 用HDFS API 上傳本地文件 52
3.3.2 用HDFS API 創(chuàng)建HDFS 文件 54
3.3.3 用HDFS API 讀取和寫入文件 55
3.3.4 用HDFS API 創(chuàng)建HDFS 目錄 56
3.3.5 用HDFS API 查找文件所在位置 57
3.4 HDFS 工作機制 58
3.4.1 HDFS 寫數(shù)據(jù)流程 58
3.4.2 HDFS 讀數(shù)據(jù)流程 59
3.4.3 NameNode 工作機制 60
3.4.4 DataNode 工作機制 61
3.5 HDFS 客戶信息管理 62
3.5.1 環(huán)境搭建 62
3.5.2 寫入客戶信息 66
3.5.3 讀取客戶信息 69
課后練習 69
第4章 MapReduce 編程 71
4.1 MapReduce 的工作原理 71
4.1.1 MapReduce 的由來和特點 72
4.1.2 MapReduce 執(zhí)行過程 73
4.1.3 MapTask 執(zhí)行過程 75
4.1.4 Reduce 執(zhí)行過程 76
4.1.5 Shuffle 執(zhí)行過程 77
4.2 MapReduce 程序編寫 78
4.2.1 開發(fā)工具IDEA 的安裝 78
4.2.2 MapReduce 輸入/輸出類型 81
4.2.3 MapReduce 輸入處理類 81
4.2.4 MapReduce 輸出處理類 83
4.2.5 入門案例—WordCount 84
4.3 統(tǒng)計網(wǎng)站最大訪問次數(shù) 87
4.3.1 實體類 87
4.3.2 Mapper 類 88
4.3.3 Reducer 類 89
4.3.4 項目驅動類 90
課后練習 91
第5章 MapReduce 高級編程 92
5.1 MapReduce 高級開發(fā)一 92
5.1.1 Combiner 編程 93
5.1.2 Partitioner 編程 94
5.1.3 RecordReader 編程 97
5.2 MapReduce 高級開發(fā)二 102
5.2.1 MapReduce 連接操作 103
5.2.2 MapReduce 排序操作 109
5.2.3 MapReduce 多文件聯(lián)合查詢 111
5.3 實現(xiàn)課程名稱和成績的二次排序 115
5.3.1 實體類 115
5.3.2 Mapper 類 116
5.3.3 Reducer 類 117
5.3.4 項目驅動類編寫 117
課后練習 118
第6章 Hive 數(shù)據(jù)倉庫 120
6.1 什么是Hive 121
6.1.1 Hive 簡介 121
6.1.2 為什么使用Hive 121
6.1.3 Hive 的優(yōu)缺點 122
6.1.4 Hive 體系結構 122
6.1.5 Hive 設計特征 123
6.2 Hive 安裝 124
6.2.1 偽分布式安裝與配置Hive 124
6.2.2 安裝與配置MySQL 126
6.3 Hive 基本操作 128
6.3.1 Hive 數(shù)據(jù)類型 128
6.3.2 數(shù)據(jù)庫操作 129
6.3.3 內(nèi)部表操作 131
6.3.4 外部表操作 139
6.3.5 分區(qū)表操作 139
6.3.6 分桶表操作 143
6.3.7 Hive 數(shù)據(jù)操作 144
6.4 實現(xiàn)購物用戶數(shù)據(jù)清洗項目 148
6.4.1 導入數(shù)據(jù) 148
6.4.2 數(shù)據(jù)分析 149
6.4.3 數(shù)據(jù)導出 150
課后練習 150
第7章 HBase 數(shù)據(jù)庫 152
7.1 HBase 認知 153
7.1.1 HBase 簡介. 153
7.1.2 HBase 體系結構 153
7.1.3 HBase 寫數(shù)據(jù)流程 154
7.1.4 HBase 讀數(shù)據(jù)流程 155
7.2 HBase 安裝 156
7.2.1 下載軟件 156
7.2.2 偽分布式安裝與配置 157
7.3 HBase shell 操作命令 159
7.3.1 HBase 數(shù)據(jù)模型 159
7.3.2 數(shù)據(jù)表空間操作 161
7.3.3 數(shù)據(jù)表操作 164
7.3.4 數(shù)據(jù)操作 170
7.4 HBase API 操作 174
7.4.1 HBase 常用的API 175
7.4.2 Configuration 對象 175
7.4.3 HTable 句柄創(chuàng)建 178
7.4.4 HBase 數(shù)據(jù)的CRUD 操作 179
7.5 學生成績管理 187
7.5.1 學生成績表數(shù)據(jù)準備 187
7.5.2 學生成績表設計分析 188
7.5.3 學生成績表代碼實現(xiàn) 189
課后練習 191
第8章 Sqoop 導入和導出 193
8.1 概述 194
8.1.1 Sqoop 產(chǎn)生背景 194
8.1.2 Sqoop 是什么 194
8.1.3 為什么選擇 Sqoop 194
8.2 工作原理 195
8.2.1 導入機制 195
8.2.2 導出機制 196
8.3 安裝 196
8.3.1 前提準備 196
8.3.2 下載Sqoop 197
8.3.3 安裝Sqoop 198
8.3.4 配置Sqoop 199
8.3.5 MySQL 驅動包 199
8.3.6 驗證Sqoop. 200
8.4 Sqoop 的基本命令 200
8.4.1 基本操作 200
8.4.2 示例 200
8.5 數(shù)據(jù)導入和導出 208
8.5.1 從RDBMS 導入HDFS 中 208
8.5.2 MySQL 數(shù)據(jù)導入Hive 中 209
8.5.3 MySQL 數(shù)據(jù)導入HBase 209
課后練習 210
參考文獻 212