關(guān)于我們
書單推薦
新書推薦
|
大數(shù)據(jù)技術(shù)基礎(chǔ)(第2版) 本書系統(tǒng)介紹了大數(shù)據(jù)基礎(chǔ)知識和相關(guān)技術(shù),全書分為大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)存儲與管理篇、大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺Hadoop實踐與應(yīng)用案例5篇,共17章,主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)平臺Hadoop基礎(chǔ)、大數(shù)據(jù)存儲與管理基本概念、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive、大數(shù)據(jù)采集與預(yù)處理技術(shù)、大數(shù)據(jù)采集工具、大數(shù)據(jù)計算模式、大數(shù)據(jù)MapReduce計算模型、大數(shù)據(jù)Spark計算模型、大數(shù)據(jù)Flink計算模型、大數(shù)據(jù)MapReduce基礎(chǔ)算法、大數(shù)據(jù)挖掘算法、Hadoop大數(shù)據(jù)平臺實踐、開敞式碼頭系泊纜力預(yù)測應(yīng)用案例以及曙光XData大數(shù)據(jù)平臺及應(yīng)用案例。全書提供了大量應(yīng)用實例,且大多章后附有習(xí)題。本書特色在于融會貫通大數(shù)據(jù)基本概念與大數(shù)據(jù)技術(shù)及應(yīng)用,很好地將大數(shù)據(jù)概念、技術(shù)及應(yīng)用融合在一起,便于讀者更好地理解大數(shù)據(jù)基本概念,更快掌握大數(shù)據(jù)前沿技術(shù)及其應(yīng)用。 本書適合作為高等院校計算機、軟件工程、信息管理等相關(guān)專業(yè)的本科生及研究生大數(shù)據(jù)技術(shù)課程的教學(xué)用書,也可作為相關(guān)IT工程技術(shù)人員的參考用書。 本書全面系統(tǒng)地介紹了大數(shù)據(jù)基礎(chǔ)知識和相關(guān)技術(shù)。 《大數(shù)據(jù)技術(shù)基礎(chǔ)》第1版于2019年8月完成,距今已有4年多的時間。在過去的4年時間里,一方面,大數(shù)據(jù)技術(shù)發(fā)展迅猛,諸如Flink流計算等新技術(shù)迅速崛起,為大數(shù)據(jù)采集、存儲、處理和計算帶來眾多新概念、新框架和新方法。因此,我們對第1版內(nèi)容進行了補充和修訂,例如,有關(guān)Kafka消息隊列、Flink流計算模型等內(nèi)容,以適應(yīng)大數(shù)據(jù)技術(shù)的快速發(fā)展,保持本書的先進性。另一方面,我們結(jié)合廣大一線教師在使用本教材進行教學(xué)過程中的收獲與體會,以及提出的寶貴意見和修改建議,對第1版中有關(guān)大數(shù)據(jù)HBase數(shù)據(jù)庫和大數(shù)據(jù)Hive數(shù)據(jù)倉庫操作實踐等內(nèi)容進行了補充和修訂,以適應(yīng)廣大師生實踐大數(shù)據(jù)操作需求,保持本書的實用性。 本書依然保持融會貫通大數(shù)據(jù)概念與大數(shù)據(jù)技術(shù)及應(yīng)用特色,很好地將大數(shù)據(jù)概念、技術(shù)及應(yīng)用融合在一起,便于讀者更好地理解大數(shù)據(jù)基本概念,更快掌握大數(shù)據(jù)前沿技術(shù)及其應(yīng)用。本書依然沿用第1版的篇幅設(shè)計,全書分為5篇: 大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺Hadoop實踐與應(yīng)用案例。
修訂后,全書共17章,主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)平臺Hadoop基礎(chǔ)、大數(shù)據(jù)存儲與管理基本概念、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive、大數(shù)據(jù)采集與預(yù)處理技術(shù)、大數(shù)據(jù)采集工具、大數(shù)據(jù)計算模式、大數(shù)據(jù)MapReduce計算模型、大數(shù)據(jù)Spark計算模型、大數(shù)據(jù)Flink計算模型、大數(shù)據(jù)MapReduce基礎(chǔ)算法、大數(shù)據(jù)挖掘算法、Hadoop大數(shù)據(jù)平臺實踐、開敞式碼頭系泊纜力預(yù)測應(yīng)用案例以及曙光XData大數(shù)據(jù)平臺及應(yīng)用案例。全書提供了大量應(yīng)用實例,每章后附有習(xí)題。 本書適合作為高等院校計算機、軟件工程、信息管理等相關(guān)專業(yè)的本科生及研究生學(xué)習(xí)大數(shù)據(jù)技術(shù)的教學(xué)用書,也可作為相關(guān)IT工程技術(shù)人員的參考用書。 本書修訂由大連交通大學(xué)宋旭東擔(dān)任主編,劉月凡、宋亮、王立娟、李修飛擔(dān)任副主編,路文靜、路旭明、王春爽、于林林參編完成。在本書撰寫過程中,陳煜、李帥陽、許翰文等做了大量輔助工作。在此,衷心感謝上述編寫參與人員在本書寫作過程中的共同努力和辛苦付出!
前言(第1版) 為滿足相關(guān)技術(shù)人員學(xué)習(xí)大數(shù)據(jù)相關(guān)技術(shù)的需求,我們在總結(jié)近幾年在大數(shù)據(jù)技術(shù)課程教學(xué)經(jīng)驗和項目成果的基礎(chǔ)上,同時引入中科曙光XData大數(shù)據(jù)相關(guān)技術(shù)及應(yīng)用案例,從理論結(jié)合實踐的角度,將大數(shù)據(jù)基本概念與大數(shù)據(jù)技術(shù)相結(jié)合,精心組織設(shè)計完成了本書。 本書全面系統(tǒng)地介紹了大數(shù)據(jù)基礎(chǔ)知識和相關(guān)技術(shù),全書分為: 大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺Hadoop實踐與應(yīng)用案例5篇,共16章,主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)存儲與管理概念及技術(shù)、大數(shù)據(jù)采集及預(yù)處理技術(shù)、大數(shù)據(jù)計算模式、大數(shù)據(jù)分布式并行處理框架Hadoop、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive、大數(shù)據(jù)MapReduce分布式并行計算模型、大數(shù)據(jù)Spark內(nèi)存計算模型、大數(shù)據(jù)處理基礎(chǔ)算法、大數(shù)據(jù)關(guān)聯(lián)分析、分類、聚類典型數(shù)據(jù)挖掘算法、大數(shù)據(jù)Hadoop平臺操作實踐、大數(shù)據(jù)預(yù)測應(yīng)用案例分析以及中科曙光XData大數(shù)據(jù)平臺架構(gòu)、關(guān)鍵技術(shù)及其應(yīng)用案例。全書提供了大量應(yīng)用實例,每章后附有習(xí)題。本書特色在于融會貫通大數(shù)據(jù)基本概念與大數(shù)據(jù)技術(shù)及應(yīng)用,很好地將大數(shù)據(jù)概念、技術(shù)及應(yīng)用融合在一起,便于讀者更好地理解大數(shù)據(jù)基本概念,更快掌握大數(shù)據(jù)前沿技術(shù)及其應(yīng)用。 第一篇大數(shù)據(jù)基礎(chǔ): 本篇著重介紹大數(shù)據(jù)基本概念和大數(shù)據(jù)Hadoop平臺組件,旨在幫助讀者正確理解大數(shù)據(jù)的核心概念及其應(yīng)用技術(shù),為讀者后續(xù)章節(jié)的學(xué)習(xí)奠定基礎(chǔ)。本篇包括2章: 第1章主要介紹了大數(shù)據(jù)產(chǎn)生的背景及其發(fā)展歷程,大數(shù)據(jù)給我們科學(xué)研究及思維模式帶來的影響,大數(shù)據(jù)的4V特征及在科研、交通、通信、醫(yī)療、金融、制造、體育、個性化生活、安全等領(lǐng)域的應(yīng)用。同時也簡要介紹了大數(shù)據(jù)框架體系和關(guān)鍵技術(shù),包括數(shù)據(jù)采集與預(yù)處理技術(shù)、數(shù)據(jù)存儲和管理技術(shù)、數(shù)據(jù)分析與挖掘技術(shù)、數(shù)據(jù)可視化技術(shù)、數(shù)據(jù)安全保護技術(shù)、云計算、物聯(lián)網(wǎng)和機器學(xué)習(xí)等技術(shù)。 第2章主要介紹了大數(shù)據(jù)并行計算框架Hadoop平臺,包括Hadoop的項目來源、發(fā)展歷程、主要用途、分布式存儲和并行計算基本原理,以及對Hadoop平臺核心組件(HDFS、MapReduce、ZooKeeper、Yarn、HBase、Hive、Spark、Mahout等)的簡要描述。 第二篇大數(shù)據(jù)存儲與管理: 本篇著重介紹大數(shù)據(jù)存儲與管理基本概念和常用的大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive,旨在幫助讀者正確理解大數(shù)據(jù)存儲與管理的核心概念及其相關(guān)軟件技術(shù)。本篇包括4章: 第3章主要介紹了大數(shù)據(jù)存儲與管理的基本概念和技術(shù),包括數(shù)據(jù)管理技術(shù)發(fā)展回顧,大數(shù)據(jù)數(shù)據(jù)類型,大數(shù)據(jù)分布式系統(tǒng)基礎(chǔ)理論,NoSQL數(shù)據(jù)庫的興起,以及與大數(shù)據(jù)存儲和管理密切相關(guān)的分布式存儲技術(shù)、虛擬化技術(shù)和云存儲技術(shù)。 第4章主要介紹了大數(shù)據(jù)分布式文件系統(tǒng)HDFS,包括HDFS的設(shè)計特點,體系結(jié)構(gòu)和工作組件,闡述了HDFS工作流程,分析了在HDFS下讀寫數(shù)據(jù)的過程,圍繞HDFS基本操作,詳細介紹了HDFS文件操作命令,并對HDFS API主要編程接口進行介紹,給出了編程實例。 第5章主要介紹了大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase,重點描述了HBase列式數(shù)據(jù)庫的邏輯模型和物理模型的基本概念,給出了HBase體系結(jié)構(gòu)及其工作原理。結(jié)合實例介紹了操作HBase表及其數(shù)據(jù)的操作命令,并對HBase API主要編程接口進行介紹,給出了編程實例。
第三篇大數(shù)據(jù)采集與預(yù)處理: 本篇著重介紹大數(shù)據(jù)采集與預(yù)處理技術(shù),對常用大數(shù)據(jù)采集工具進行了簡單介紹。本篇包括2章: 第7章主要介紹了大數(shù)據(jù)采集與預(yù)處理相關(guān)技術(shù),包括數(shù)據(jù)抽取、轉(zhuǎn)換和加載技術(shù),數(shù)據(jù)爬蟲技術(shù)、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約的方法和技術(shù)。 第8章主要介紹了幾個常用的大數(shù)據(jù)采集工具,包括Sqoop關(guān)系型大數(shù)據(jù)采集工具,F(xiàn)lume日志大數(shù)據(jù)采集工具和分布式大數(shù)據(jù)Nutch爬蟲系統(tǒng)。 第四篇大數(shù)據(jù)分析與挖掘: 本篇著重介紹了大數(shù)據(jù)計算模式,大數(shù)據(jù)MapReduce計算模型,大數(shù)據(jù)Spark內(nèi)存計算模型,以及大數(shù)據(jù)MapReduce基礎(chǔ)算法和挖掘算法,旨在幫助讀者全面理解大數(shù)據(jù)分析與挖掘的核心思想與編程技術(shù)。本篇包括5章: 第9章主要介紹了5種大數(shù)據(jù)計算模式,包括大數(shù)據(jù)批處理、大數(shù)據(jù)查詢分析計算、大數(shù)據(jù)流計算、大數(shù)據(jù)迭代計算、大數(shù)據(jù)圖計算。 第10章主要介紹了大數(shù)據(jù)MapReduce計算模型,包括MapReduce的由來、主要功能、技術(shù)特征,MapReduce的模型框架和數(shù)據(jù)處理過程,MapReduce程序執(zhí)行過程,以及MapReduce主要編程接口及WordCount實例分析。 第11章主要介紹了大數(shù)據(jù)Spark計算模型,包括Spark的產(chǎn)生、技術(shù)特征,Spark的工作流程與運行模式,以及Spark主要訪問接口并給出了三種WordCount編程實現(xiàn)。 第12章主要介紹了大數(shù)據(jù)MapReduce基礎(chǔ)算法,包括關(guān)系代數(shù)運算的MapReduce設(shè)計與實現(xiàn),矩陣乘法的MapReduce設(shè)計與實現(xiàn)。 第13章主要介紹了大數(shù)據(jù)MapReduce挖掘算法,包括大數(shù)據(jù)關(guān)聯(lián)規(guī)則Apriori算法的MapReduce設(shè)計與實現(xiàn),大數(shù)據(jù)KNN分類算法的MapReduce設(shè)計與實現(xiàn),大數(shù)據(jù)KMeans聚類算法的MapReduce設(shè)計與實現(xiàn)。 第五篇大數(shù)據(jù)平臺Hadoop實踐與應(yīng)用案例: 本篇著重介紹大數(shù)據(jù)Hadoop平臺的實踐操作,給出了大數(shù)據(jù)技術(shù)在開敞式碼頭系泊纜力預(yù)測中的應(yīng)用,以及中科曙光XData大數(shù)據(jù)平臺架構(gòu)、關(guān)鍵技術(shù)及其應(yīng)用案例,旨在幫助讀者理解如何將大數(shù)據(jù)的方法和技術(shù)運用到實際項目需求中,促進大數(shù)據(jù)技術(shù)在各領(lǐng)域行業(yè)中的應(yīng)用。本篇包括3章: 第14章主要介紹了Hadoop大數(shù)據(jù)平臺操作實踐,包括Hadoop系統(tǒng)的安裝與配置詳細操作,Hadoop平臺文件操作及程序運行命令,以及Hadoop平臺下程序開發(fā)方法和過程。 第15章主要介紹了大數(shù)據(jù)方法和技術(shù)在開敞式碼頭系泊纜力預(yù)測中的應(yīng)用,給出了大數(shù)據(jù)系泊纜力相似性查詢預(yù)測方法,并基于Hadoop大數(shù)據(jù)平臺完成了系泊纜力預(yù)測的相似性查詢方法MapReduce設(shè)計與實現(xiàn)。 第16章主要介紹了中科曙光XData大數(shù)據(jù)方法的架構(gòu)及關(guān)鍵技術(shù),包括曙光XData大數(shù)據(jù)集成與數(shù)據(jù)治理組件、大數(shù)據(jù)存儲與數(shù)據(jù)計算組件、大數(shù)據(jù)分析與數(shù)據(jù)智能組件、大數(shù)據(jù)可視化分析組件、大數(shù)據(jù)安全管控與管理運維組件,并給出了基于曙光XData大數(shù)據(jù)平臺的智能交通應(yīng)用案例。 本書適合作為高等院校計算機、軟件工程、信息管理等相關(guān)專業(yè)的本科生及研究生大數(shù)據(jù)技術(shù)課程的教材,也可作為相關(guān)IT工程技術(shù)人員的參考用書。 本書由大連交通大學(xué)宋旭東教授擔(dān)任主編、并輔助全書內(nèi)容的組織和編審。宋亮、王立娟、張鵬擔(dān)任副主編。本書第一篇、第四篇、第五篇由宋旭東編寫,第二篇由宋亮編寫,第7章由王立娟編寫,第8章由張鵬編寫。在本書撰寫過程中,叢郁洋、楊杰、朱大杰等研究生做了大量輔助工作。中科曙光大數(shù)據(jù)部副總經(jīng)理郭慶先生、曙光大數(shù)據(jù)團隊工程師參編了第16章工作。張旗教授對全書進行了審閱!在此,衷心感謝上述著作編寫參與人員在本書寫作過程中的共同努力和辛苦付出!感謝中科曙光公司對本書出版給予的大力支持和幫助! 在本書撰寫過程中,參考了大量國內(nèi)外教材、論文、技術(shù)論壇等相關(guān)資料。由于作者水平有限,書中不足之處在所難免,敬請廣大讀者批評指正。
第1篇大數(shù)據(jù)基礎(chǔ) 第1章大數(shù)據(jù)基本概念
1.1.1大數(shù)據(jù)有多大 1.1.2大數(shù)據(jù)的產(chǎn)生 1.1.3大數(shù)據(jù)的發(fā)展歷程 1.1.4大數(shù)據(jù)對科學(xué)研究的影響 1.1.5大數(shù)據(jù)對思維模式的影響 1.2大數(shù)據(jù)的定義與特征 1.2.1大數(shù)據(jù)的定義 1.2.2大數(shù)據(jù)的數(shù)據(jù)特征 1.3大數(shù)據(jù)的應(yīng)用 1.3.1大數(shù)據(jù)在科研領(lǐng)域的應(yīng)用 1.3.2大數(shù)據(jù)在交通領(lǐng)域的應(yīng)用 1.3.3大數(shù)據(jù)在通信領(lǐng)域的應(yīng)用 1.3.4大數(shù)據(jù)在醫(yī)療領(lǐng)域的應(yīng)用 1.3.5大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用 1.3.6大數(shù)據(jù)在制造領(lǐng)域的應(yīng)用 1.3.7大數(shù)據(jù)在體育領(lǐng)域的應(yīng)用 1.3.8大數(shù)據(jù)在個性化生活領(lǐng)域的應(yīng)用 1.3.9大數(shù)據(jù)在安全領(lǐng)域的應(yīng)用 1.4大數(shù)據(jù)框架體系 1.4.1大數(shù)據(jù)基礎(chǔ)設(shè)施層 1.4.2大數(shù)據(jù)采集層 1.4.3大數(shù)據(jù)存儲層 1.4.4大數(shù)據(jù)處理層 1.4.5大數(shù)據(jù)交互展示層 1.4.6大數(shù)據(jù)應(yīng)用層
1.5.1數(shù)據(jù)采集與預(yù)處理技術(shù) 1.5.2數(shù)據(jù)存儲和管理技術(shù) 1.5.3數(shù)據(jù)分析與挖掘技術(shù) 1.5.4數(shù)據(jù)可視化技術(shù) 1.5.5數(shù)據(jù)安全和隱私保護技術(shù) 1.6大數(shù)據(jù)支撐技術(shù) 1.6.1云計算 1.6.2物聯(lián)網(wǎng) 1.6.3人工智能 習(xí)題
2.1大數(shù)據(jù)平臺Hadoop概述 2.1.1Hadoop簡介 2.1.2Hadoop項目起源 2.1.3Hadoop發(fā)展歷程 2.1.4Hadoop特性 2.1.5Hadoop主要用途 2.2大數(shù)據(jù)平臺Hadoop原理 2.2.1分布式計算原理 2.2.2MapReduce原理 2.2.3Yarn原理 2.3大數(shù)據(jù)平臺Hadoop組件 2.3.1HDFS組件 2.3.2MapReduce組件 2.3.3ZooKeeper組件 2.3.4Yarn組件 2.3.5HBase組件 2.3.6Hive組件 2.3.7Spark組件 2.3.8Mahout組件 2.3.9Flume組件 2.3.10Sqoop組件 2.3.11Kafka組件 2.3.12Pig組件 2.3.13Ambari組件 2.3.14Tez組件 2.3.15Common組件 習(xí)題 第2篇大數(shù)據(jù)存儲與管理 第3章大數(shù)據(jù)存儲與管理基本概念 3.1大數(shù)據(jù)的數(shù)據(jù)類型 3.1.1結(jié)構(gòu)化數(shù)據(jù) 3.1.2半結(jié)構(gòu)化數(shù)據(jù) 3.1.3非結(jié)構(gòu)化數(shù)據(jù) 3.2數(shù)據(jù)管理技術(shù)的發(fā)展 3.2.1文件系統(tǒng)階段 3.2.2數(shù)據(jù)庫系統(tǒng)階段 3.2.3數(shù)據(jù)倉庫階段 3.2.4分布式系統(tǒng)階段 3.3分布式系統(tǒng)基礎(chǔ)理論 3.3.1CAP理論 3.3.2BASE思想 3.4NoSQL數(shù)據(jù)庫 3.4.1NoSQL數(shù)據(jù)庫的興起 3.4.2NoSQL數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫的比較 3.4.3NoSQL數(shù)據(jù)庫的4大類型 3.5大數(shù)據(jù)存儲與管理技術(shù) 3.5.1分布式存儲技術(shù) 3.5.2虛擬化技術(shù) 3.5.3云存儲技術(shù) 習(xí)題 第4章大數(shù)據(jù)分布式文件系統(tǒng)HDFS 4.1HDFS概述 4.1.1HDFS簡介 4.1.2HDFS設(shè)計特點 4.2HDFS工作原理 4.2.1HDFS體系結(jié)構(gòu) 4.2.2HDFS工作組件 4.3HDFS工作流程 4.3.1讀數(shù)據(jù)的過程 4.3.2寫數(shù)據(jù)的過程 4.4HDFS基本操作 4.4.1HDFS文件操作 4.4.2HDFS管理命令 4.5HDFS編程接口 4.5.1HDFS常用Java API 4.5.2HDFS API編程實例 習(xí)題 第5章大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase 5.1HBase概述 5.1.1HBase簡介 5.1.2HBase特性 5.1.3HBase與傳統(tǒng)關(guān)系數(shù)據(jù)庫對比 5.1.4HBase應(yīng)用場景 5.2HBase數(shù)據(jù)模型 5.2.1HBase數(shù)據(jù)模型術(shù)語 5.2.2HBase數(shù)據(jù)邏輯模型 5.2.3HBase數(shù)據(jù)物理模型 5.3HBase工作原理 5.3.1HBase體系結(jié)構(gòu) 5.3.2HBase工作組件 5.4HBase安裝 5.4.1下載HBase 5.4.2安裝HBase 5.4.3啟動HBase 5.4.4關(guān)閉HBase 5.5HBase操作命令 5.5.1HBase表操作 5.5.2HBase數(shù)據(jù)操作 5.6HBase編程接口 5.6.1HBase常用Java API 5.6.2HBase API編程實例 習(xí)題 第6章大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive 6.1Hive概述 6.1.1Hive特性 6.1.2Hive工作原理 6.1.3Hive執(zhí)行流程 6.2Hive數(shù)據(jù)類型及數(shù)據(jù)模型 6.2.1Hive數(shù)據(jù)類型 6.2.2Hive數(shù)據(jù)模型 6.3安裝Hive 6.3.1下載Hive 6.3.2安裝配置Hive 6.3.3安裝MySQL 6.3.4配置MySQL允許Hive接入 6.3.5啟動Hive 6.3.6關(guān)閉Hive 6.4Hive SQL 6.4.1DDL語句 6.4.2DML語句 6.4.3DQL語句 6.4.4Hive操作實例 6.5Hive訪問接口 6.5.1Hive CLI訪問接口 6.5.2JDBC訪問接口 習(xí)題 第3篇大數(shù)據(jù)采集與預(yù)處理 第7章大數(shù)據(jù)采集與預(yù)處理技術(shù) 7.1數(shù)據(jù)抽取、轉(zhuǎn)換、加載技術(shù) 7.1.1ETL概述 7.1.2數(shù)據(jù)抽取 7.1.3數(shù)據(jù)轉(zhuǎn)換 7.1.4數(shù)據(jù)加載 7.1.5ETL工具 7.2數(shù)據(jù)爬蟲技術(shù) 7.2.1爬蟲流程 7.2.2爬蟲分類 7.2.3大數(shù)據(jù)爬蟲技術(shù) 7.3數(shù)據(jù)預(yù)處理技術(shù) 7.3.1數(shù)據(jù)清理 7.3.2數(shù)據(jù)集成 7.3.3數(shù)據(jù)變換 7.3.4數(shù)據(jù)歸約 習(xí)題 第8章大數(shù)據(jù)采集工具 8.1Sqoop關(guān)系型大數(shù)據(jù)采集系統(tǒng) 8.1.1Sqoop簡介 8.1.2Sqoop工作原理 8.2Flume日志大數(shù)據(jù)采集系統(tǒng) 8.2.1Flume簡介 8.2.2Flume工作原理 8.2.3Flume的配置與啟動 8.3Kafka消息隊列大數(shù)據(jù)采集系統(tǒng) 8.3.1Kafka簡介 8.3.2Kafka工作原理 8.3.3Kafka的配置與啟動
8.4.1Nutch簡介 8.4.2Nutch工作原理 習(xí)題 第4篇大數(shù)據(jù)分析與挖掘 第9章大數(shù)據(jù)計算模式 9.1大數(shù)據(jù)批處理 9.1.1大數(shù)據(jù)批處理概述 9.1.2大數(shù)據(jù)批處理常用組件 9.2大數(shù)據(jù)查詢分析計算 9.2.1大數(shù)據(jù)查詢分析計算概述 9.2.2大數(shù)據(jù)查詢分析計算組件 9.3大數(shù)據(jù)流計算 9.3.1大數(shù)據(jù)流計算概述 9.3.2大數(shù)據(jù)流計算組件 9.4大數(shù)據(jù)迭代計算 9.4.1大數(shù)據(jù)迭代計算概述 9.4.2迭代計算組件 9.5大數(shù)據(jù)圖計算 9.5.1大數(shù)據(jù)圖計算概述 9.5.2圖計算組件 習(xí)題
10.1MapReduce概述 10.1.1MapReduce簡介 10.1.2MapReduce由來 10.1.3MapReduce主要功能 10.1.4MapReduce技術(shù)特征 10.2MapReduce模型框架 10.2.1MapReduce設(shè)計思想 10.2.2MapReduce模型架構(gòu) 10.3MapReduce數(shù)據(jù)處理過程 10.3.1MapReduce運行原理 10.3.2數(shù)據(jù)輸入輸出流程 10.4MapReduce程序執(zhí)行過程 10.4.1作業(yè)提交 10.4.2作業(yè)初始化 10.4.3作業(yè)分配 10.4.4任務(wù)執(zhí)行 10.4.5過程和狀態(tài)更新 10.4.6作業(yè)完成 10.5MapReduce編程接口 10.5.1數(shù)據(jù)讀入 10.5.2Mapper類和Reducer類 10.5.3數(shù)據(jù)處理 10.5.4數(shù)據(jù)輸出 10.6MapReduce實例分析 10.6.1WordCount MapReduce設(shè)計 10.6.2WordCount編程實現(xiàn) 習(xí)題 第11章大數(shù)據(jù)Spark計算模型 11.1Spark概述 11.1.1Spark產(chǎn)生 11.1.2Spark的相關(guān)概念及其組件 11.1.3Spark特性 11.2Spark工作原理 11.2.1RDD原理 11.2.2Spark工作流程 11.2.3Spark集群架構(gòu)及運行模式 11.2.4Spark Streaming工作原理 11.3Spark訪問接口 11.3.1Spark訪問接口概述 11.3.2SparkContext 訪問接口 11.3.3RDD 訪問接口 11.4Spark實例分析 11.4.1Spark Shell WordCount編程實現(xiàn) 11.4.2Scala WordCount編程實現(xiàn) 11.4.3Java WordCount編程實現(xiàn) 習(xí)題 第12章大數(shù)據(jù)Flink計算模型 12.1Flink概述 12.1.1Flink簡介 12.1.2Flink的由來 12.1.3Flink流處理 12.1.4Flink的核心特性 12.2Flink工作原理 12.2.1Flink的計算框架 12.2.2Flink的體系結(jié)構(gòu) 12.2.3Flink的運行架構(gòu) 12.3Flink編程接口 12.3.1Flink的編程模型 12.3.2Flink的編程結(jié)構(gòu) 12.4Flink實例分析 12.4.1Scala WordCount編程實現(xiàn) 12.4.2Java WordCount編程實現(xiàn) 習(xí)題 第13章大數(shù)據(jù)MapReduce基礎(chǔ)算法 13.1關(guān)系代數(shù)運算 13.1.1關(guān)系代數(shù)運算規(guī)則 13.1.2關(guān)系代數(shù)運算的MapReduce設(shè)計與實現(xiàn) 13.2矩陣乘法 13.2.1矩陣乘法原理 13.2.2矩陣乘法MapReduce設(shè)計 13.2.3矩陣乘法MapReduce實現(xiàn) 習(xí)題 第14章大數(shù)據(jù)挖掘算法 14.1大數(shù)據(jù)關(guān)聯(lián)分析算法 14.1.1Apriori算法簡介 14.1.2Apriori算法MapReduce設(shè)計 14.1.3Apriori算法MapReduce實現(xiàn) 14.2大數(shù)據(jù)KNN分類算法 14.2.1KNN分類算法簡介 14.2.2KNN算法MapReduce設(shè)計 14.2.3KNN算法MapReduce實現(xiàn) 14.3大數(shù)據(jù)KMeans聚類算法 14.3.1KMeans聚類算法簡介 14.3.2基于MapReduce的KMeans算法的設(shè)計 14.3.3基于MapReduce的KMeans算法的實現(xiàn) 14.4大數(shù)據(jù)回歸分析算法 14.4.1大數(shù)據(jù)回歸分析算法簡介 14.4.2基于MapReduce的多元回歸分析算法設(shè)計 14.4.3基于MapReduce的多元回歸分析算法的實現(xiàn) 習(xí)題
第15章Hadoop大數(shù)據(jù)平臺實踐 15.1Hadoop系統(tǒng)的安裝與配置 15.1.1安裝前的準備工作 15.1.2Linux虛擬機的安裝 15.1.3安裝和配置JDK 15.1.4下載安裝Hadoop 15.1.5SSH免密登錄 15.1.6虛擬機克隆 15.1.7Hadoop運行 15.1.8查看集群狀態(tài) 15.2Hadoop平臺基本操作 15.2.1Hadoop啟動與關(guān)閉命令 15.2.2Hadoop文件操作 15.2.3Hadoop程序運行命令 15.3Hadoop平臺程序開發(fā)過程 15.3.1開發(fā)環(huán)境配置 15.3.2程序開發(fā)流程 習(xí)題
16.1開敞式碼頭系泊纜力預(yù)測背景描述 16.1.1開敞式碼頭系泊作業(yè)背景描述 16.1.2開敞式碼頭系泊纜力預(yù)測背景 16.2大數(shù)據(jù)系泊纜力相似性查詢預(yù)測方法 16.2.1模糊相似性查詢基本方法 16.2.2系泊纜力相似性查詢預(yù)測模型 16.3相似性查詢預(yù)測方法MapReduce設(shè)計 16.3.1相似性查詢預(yù)測方法Map設(shè)計 16.3.2相似性查詢預(yù)測方法Reduce設(shè)計 16.4相似性查詢預(yù)測方法MapReduce實現(xiàn) 16.4.1系泊纜力預(yù)測結(jié)果展示 16.4.2系泊纜力預(yù)測結(jié)果分析 第17章曙光XData大數(shù)據(jù)平臺及應(yīng)用案例 17.1曙光XData大數(shù)據(jù)平臺簡介 17.1.1曙光XData大數(shù)據(jù)平臺概述 17.1.2曙光XData大數(shù)據(jù)平臺特點及應(yīng)用 17.2曙光大數(shù)據(jù)平臺架構(gòu)及關(guān)鍵技術(shù) 17.2.1曙光XData大數(shù)據(jù)平臺架構(gòu) 17.2.2曙光XData大數(shù)據(jù)平臺關(guān)鍵技術(shù) 17.3曙光XData大數(shù)據(jù)平臺組件 17.3.1曙光XData大數(shù)據(jù)集成與數(shù)據(jù)治理組件 17.3.2曙光XData大數(shù)據(jù)存儲與數(shù)據(jù)計算組件 17.3.3曙光XData大數(shù)據(jù)分析與數(shù)據(jù)智能組件 17.3.4曙光XData大數(shù)據(jù)可視化分析組件 17.3.5曙光XData大數(shù)據(jù)安全管控與管理運維組件 17.4曙光XData大數(shù)據(jù)平臺操作實踐 17.4.1曙光XData大數(shù)據(jù)平臺安裝與配置概述 17.4.2曙光XData大數(shù)據(jù)平臺基本操作 17.5基于曙光XData大數(shù)據(jù)平臺的智能交通應(yīng)用案例 17.5.1曙光XData智能交通應(yīng)用項目背景 17.5.2曙光XData智能交通應(yīng)用方案設(shè)計 17.5.3曙光XData智能交通功能實現(xiàn)及應(yīng)用效果 參考文獻
你還可能感興趣
我要評論
|