Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)
定 價(jià):39.8 元
叢書名:大數(shù)據(jù)人才培養(yǎng)規(guī)劃教材
- 作者:余明輝 張良均
- 出版時間:2018/2/1
- ISBN:9787115370662
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:188
- 紙張:
- 版次:01
- 開本:16開
本書以任務(wù)為導(dǎo)向,較為全面地介紹了Hadoop大數(shù)據(jù)技術(shù)的相關(guān)知識。全書共6章,具體內(nèi)容包括Hadoop介紹、Hadoop集群的搭建及配置、Hadoop基礎(chǔ)操作、MapReduce編程入門、MapReduce進(jìn)階編程、項(xiàng)目案例:電影網(wǎng)站用戶性別預(yù)測。本書的2~5章包含了實(shí)訓(xùn)與課后練習(xí),通過練習(xí)和操作實(shí)踐,幫助讀者鞏固所學(xué)的內(nèi)容。
本書可以作為高校大數(shù)據(jù)技術(shù)類專業(yè)的教材,也可作為大數(shù)據(jù)技術(shù)愛好者的自學(xué)用書。
大數(shù)據(jù)專家張良均領(lǐng)銜暢銷書作者團(tuán)隊(duì),教育部長江學(xué)者特聘教授、國家杰出青年基金獲得者、IEEE Fellow、華南理工大學(xué)計(jì)算機(jī)與工程學(xué)院院長張軍傾力推薦。
本書采用了以任務(wù)為導(dǎo)向的教學(xué)模式,按照解決實(shí)際任務(wù)的工作流程路線,逐步展開介紹相關(guān)的理論知識點(diǎn),推導(dǎo)生成可行的解決方案,落實(shí)在任務(wù)實(shí)現(xiàn)環(huán)節(jié)。
全書大部分章節(jié)緊扣任務(wù)需求展開,不堆積知識點(diǎn),著重于解決問題時思路的啟發(fā)與方案的實(shí)施。通過從任務(wù)需求到實(shí)現(xiàn)這一完整工作流程的體驗(yàn),幫助讀者真正理解與消化Hadoop大數(shù)據(jù)技術(shù)。
書中案例全部源于企業(yè)真實(shí)項(xiàng)目,可操作性強(qiáng),引導(dǎo)讀者融會貫通,并提供源代碼等相關(guān)學(xué)習(xí)資源,幫助讀者快速掌握大數(shù)據(jù)相關(guān)技能。
張良均,信息系統(tǒng)項(xiàng)目管理師,泰迪杯全國大學(xué)生數(shù)據(jù)挖掘競賽的發(fā)起人。華南師范大學(xué)、廣東工業(yè)大學(xué)兼職教授,廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會理事。兼有大型高科技企業(yè)和高校的工作經(jīng)歷,主要從事大數(shù)據(jù)挖掘及其應(yīng)用的策劃、研發(fā)及咨詢培訓(xùn)。全國計(jì)算機(jī)技術(shù)與軟件專業(yè)技術(shù)資格(水平)考試?yán)^續(xù)教育和CDA數(shù)據(jù)分析師培訓(xùn)講師。發(fā)表數(shù)據(jù)挖掘相關(guān)論文數(shù)二十余篇,已取得國家發(fā)明專利12項(xiàng),主編圖書《神經(jīng)網(wǎng)絡(luò)實(shí)用教程》《數(shù)據(jù)挖掘:實(shí)用案例分析》《Python數(shù)據(jù)分析與挖掘》等多本暢銷圖書,主持并完成科技項(xiàng)目9項(xiàng)。獲得SAS、SPSS數(shù)據(jù)挖掘認(rèn)證及Hadoop開發(fā)工程師證書,具有電力、電信、銀行、制造企業(yè)、電子商務(wù)和電子政務(wù)的項(xiàng)目經(jīng)驗(yàn)和行業(yè)背景。
一章 Hadoop介紹 1
1.1 Hadoop概述 1
1.1.1 Hadoop簡介 1
1.1.2 Hadoop的發(fā)展歷史 2
1.1.3 Hadoop的特點(diǎn) 3
1.2 Hadoop核心 4
1.2.1 分布式文件系統(tǒng)——HDFS 4
1.2.2 分布式計(jì)算框架——MapReduce 7
1.2.3 集群資源管理器——YARN 9
1.3 Hadoop生態(tài)系統(tǒng) 12
1.4 Hadoop應(yīng)用場景 14
小結(jié) 15
二章 Hadoop集群的搭建及配置 16
任務(wù)2.1 安裝及配置虛擬機(jī) 17
2.1.1 創(chuàng)建Linux虛擬機(jī) 17
2.1.2 設(shè)置固定IP 25
2.1.3 遠(yuǎn)程連接虛擬機(jī) 27
2.1.4 虛擬機(jī)在線安裝軟件 29
2.1.5 任務(wù)實(shí)現(xiàn) 32
任務(wù)2.2 安裝Java 32
2.2.1 在Windows下安裝Java 33
2.2.2 在Linux下安裝Java 35
2.2.3 任務(wù)實(shí)現(xiàn) 36
任務(wù)2.3 搭建Hadoop完全分布式集群 36
2.3.1 修改配置文件 36
2.3.2 克隆虛擬機(jī) 41
2.3.3 配置SSH免密碼登錄 43
2.3.4 配置時間同步服務(wù) 44
2.3.5 啟動關(guān)閉集群 46
2.3.6 監(jiān)控集群 47
小結(jié) 50
實(shí)訓(xùn) 50
實(shí)訓(xùn)1 為Hadoop集群增加一個節(jié)點(diǎn) 50
實(shí)訓(xùn)2 編寫Shell腳本同步集群時間 51
課后練習(xí) 51
第3章 Hadoop基礎(chǔ)操作 53
任務(wù)3.1 查看Hadoop集群的基本信息 54
3.1.1 查詢集群的存儲系統(tǒng)信息 55
3.1.2 查詢集群的計(jì)算資源信息 58
任務(wù)3.2 上傳文件到HDFS目錄 59
3.2.1 了解HDFS文件系統(tǒng) 59
3.2.2 掌握HDFS的基本操作 62
3.2.3 任務(wù)實(shí)現(xiàn) 65
任務(wù)3.3 運(yùn)行MapReduce任務(wù) 67
3.3.1 了解Hadoop官方的示例程序包 67
3.3.2 提交MapReduce任務(wù)給集群運(yùn)行 68
任務(wù)3.4 管理多個MapReduce任務(wù) 71
3.4.1 查詢MapReduce任務(wù) 72
3.4.2 中斷MapReduce任務(wù) 74
小結(jié) 76
實(shí)訓(xùn) 77
實(shí)訓(xùn)1 統(tǒng)計(jì)文件中所有單詞的平均長度 77
實(shí)訓(xùn)2 查詢與中斷MapReduce任務(wù) 77
課后練習(xí) 78
第4章 MapReduce編程入門 80
任務(wù)4.1 使用Eclipse創(chuàng)建MapReduce工程 81
4.1.1 下載與安裝Eclipse 81
4.1.2 配置MapReduce環(huán)境 82
4.1.3 新建MapReduce工程 84
任務(wù)4.2 通過源碼初識MapReduce編程 86
4.2.1 通俗理解MapReduce原理 86
4.2.2 了解MR實(shí)現(xiàn)詞頻統(tǒng)計(jì)的執(zhí)行流程 88
4.2.3 讀懂官方提供的WordCount源碼 89
任務(wù)4.3 編程實(shí)現(xiàn)按日期統(tǒng)計(jì)訪問次數(shù) 94
4.3.1 分析思路與處理邏輯 94
4.3.2 編寫核心模塊代碼 95
4.3.3 任務(wù)實(shí)現(xiàn) 97
任務(wù)4.4 編程實(shí)現(xiàn)按訪問次數(shù)排序 99
4.4.1 分析思路與處理邏輯 99
4.4.2 編寫核心模塊代碼 100
4.4.3 任務(wù)實(shí)現(xiàn) 102
小結(jié) 104
實(shí)訓(xùn) 104
實(shí)訓(xùn)1 獲取成績表的高分記錄 104
實(shí)訓(xùn)2 對兩個文件中的數(shù)據(jù)進(jìn)行合并與去重 105
課后練習(xí) 107
第5章 MapReduce進(jìn)階編程 110
任務(wù)5.1 篩選日志文件并生成序列化文件 111
5.1.1 MapReduce輸入格式 111
5.1.2 MapReduce輸出格式 113
5.1.3 任務(wù)實(shí)現(xiàn) 113
任務(wù)5.2 Hadoop Java API讀取序列化日志文件 115
5.2.1 FileSystem API管理文件夾 115
5.2.2 FileSystem API操作文件 119
5.2.3 FileSystem API讀寫數(shù)據(jù) 121
5.2.4 任務(wù)實(shí)現(xiàn) 123
任務(wù)5.3 優(yōu)化日志文件統(tǒng)計(jì)程序 124
5.3.1 自定義鍵值類型 124
5.3.2 初步探索Combiner 128
5.3.3 淺析Partitioner 130
5.3.4 自定義計(jì)數(shù)器 132
5.3.5 任務(wù)實(shí)現(xiàn) 134
任務(wù)5.4 Eclipse提交日志文件統(tǒng)計(jì)程序 137
5.4.1 傳遞參數(shù) 137
5.4.2 Hadoop輔助類ToolRunner 139
5.4.3 Eclipse自動打包并提交任務(wù) 140
小結(jié) 144
實(shí)訓(xùn) 144
實(shí)訓(xùn)1 統(tǒng)計(jì)全球每年的高氣溫和低氣溫 144
實(shí)訓(xùn)2 篩選氣溫在15~25℃之間的數(shù)據(jù) 145
課后練習(xí) 146
第6章 項(xiàng)目案例:電影網(wǎng)站用戶性別預(yù)測 151
任務(wù)6.1 認(rèn)識KNN算法 152
6.1.1 KNN算法簡介 152
6.1.2 KNN算法原理及流程 152
任務(wù)6.2 數(shù)據(jù)預(yù)處理 154
6.2.1 獲取數(shù)據(jù) 154
6.2.2 數(shù)據(jù)變換 155
6.2.3 數(shù)據(jù)清洗 160
6.2.4 劃分?jǐn)?shù)據(jù)集 163
任務(wù)6.3 實(shí)現(xiàn)用戶性別分類 167
6.3.1 實(shí)現(xiàn)思路 167
6.3.2 代碼實(shí)現(xiàn) 169
任務(wù)6.4 評價(jià)分類結(jié)果的準(zhǔn)確性 179
6.4.1 評價(jià)思路 179
6.4.2 實(shí)現(xiàn)分類評價(jià) 180
6.4.3 尋找優(yōu)K值 184
小結(jié) 188
參考文獻(xiàn) 189