本書第1章為大數(shù)據(jù)概述,介紹大數(shù)據(jù)的基本概念和應(yīng)用領(lǐng)域,回顧大數(shù)據(jù)理念和技術(shù)的發(fā)展歷程,闡述大數(shù)據(jù)的發(fā)展前景。第2~7章介紹大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)計算平臺、大數(shù)據(jù)管理、數(shù)據(jù)挖掘、大數(shù)據(jù)隱私與安全和人工智能6個大數(shù)據(jù)領(lǐng)域及其中的主要技術(shù)。第2章主要介紹大數(shù)據(jù)采集技術(shù),包括大數(shù)據(jù)的來源、采集方法及數(shù)據(jù)預(yù)處理方法等,*后對大數(shù)據(jù)采集應(yīng)用案例進(jìn)行分析,幫助讀者更好地理解大數(shù)據(jù)采集技術(shù)。第3章介紹大數(shù)據(jù)處理架構(gòu)Hadoop以及與大數(shù)據(jù)技術(shù)密不可分的云計算技術(shù)及其應(yīng)用。由于Hadoop已經(jīng)成為應(yīng)用*廣泛的大數(shù)據(jù)技術(shù),本書的大數(shù)據(jù)相關(guān)技術(shù)主要圍繞Hadoop展開,包括HDFS和MapReduce。第4章介紹大數(shù)據(jù)管理,包括分布式數(shù)據(jù)庫(HBase)、常用的NoSQL數(shù)據(jù)庫和云數(shù)據(jù)庫。第5章從數(shù)據(jù)挖掘的概念入手,介紹數(shù)據(jù)挖掘的幾種算法以及算法的應(yīng)用。第6章提出大數(shù)據(jù)面臨的安全隱患,介紹大數(shù)據(jù)安全的基本概念以及大數(shù)據(jù)安全與隱私保護(hù)的主要方法。第7章介紹人工智能的起源和基本概念,通過案例介紹一些經(jīng)典的機(jī)器學(xué)習(xí)算法在實際中的應(yīng)用。第8~11章包含4個實驗,對應(yīng)數(shù)據(jù)采集技術(shù)、云計算技術(shù)和數(shù)據(jù)挖掘技術(shù)展開。本書在重視理論的前提下,不忽視實際的可操作性,注重問題的解決,大數(shù)據(jù)基礎(chǔ)與大數(shù)據(jù)技術(shù)部分每章均設(shè)有習(xí)題,以幫助讀者鞏固所學(xué)知識。
本書以大數(shù)據(jù)技術(shù)為主線,將大數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)過程中的核心技術(shù)串接起來,分為基礎(chǔ)部分、技術(shù)部分及實驗部分。不同技術(shù)配套一個當(dāng)前的熱門話題案例,讓學(xué)生明白技術(shù)的應(yīng)用范圍及領(lǐng)域,從而找到適合自己發(fā)展的大數(shù)據(jù)技術(shù)方向。
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等新一代信息技術(shù)的應(yīng)用和推廣,大數(shù)據(jù)技術(shù)成為又一顛覆性的技術(shù),備受人們關(guān)注。身處大數(shù)據(jù)時代,我們已經(jīng)感受到大數(shù)據(jù)對人們的思維模式和生活方式的改變,大數(shù)據(jù)對人類的社會生產(chǎn)和生活必將產(chǎn)生重大而深遠(yuǎn)的影響。本書定位為大數(shù)據(jù)技術(shù)入門教材,以大數(shù)據(jù)的基本技術(shù)路線為框架,通過基本理論和應(yīng)用實例相結(jié)合的方式,介紹大數(shù)據(jù)技術(shù),幫助讀者形成對大數(shù)據(jù)知識體系及其應(yīng)用領(lǐng)域的輪廓性認(rèn)識,為讀者在大數(shù)據(jù)領(lǐng)域的繼續(xù)深造奠定基礎(chǔ)。本書旨在服務(wù)大數(shù)據(jù)初學(xué)者,為適應(yīng)初學(xué)者學(xué)習(xí)特點,適當(dāng)增加了廣度而降低了深度,在數(shù)據(jù)挖掘部分盡可能少地使用數(shù)學(xué)知識,對于一些不可避免的部分,力求展現(xiàn)其中的精華,而在大數(shù)據(jù)實驗部分,必須掌握的基礎(chǔ)性編程語言也有涉及。本書主要以Java語言為基礎(chǔ)。本書第1章為大數(shù)據(jù)概述,介紹大數(shù)據(jù)的基本概念和應(yīng)用領(lǐng)域,回顧大數(shù)據(jù)理念和技術(shù)的發(fā)展歷程,闡述大數(shù)據(jù)的發(fā)展前景。第2~7章介紹大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)計算平臺、大數(shù)據(jù)管理、數(shù)據(jù)挖掘、大數(shù)據(jù)隱私與安全和人工智能6個大數(shù)據(jù)領(lǐng)域及其中的主要技術(shù)。第2章主要介紹大數(shù)據(jù)采集技術(shù),包括大數(shù)據(jù)的來源、采集方法及數(shù)據(jù)預(yù)處理方法等,*后對大數(shù)據(jù)采集應(yīng)用案例進(jìn)行分析,幫助讀者更好地理解大數(shù)據(jù)采集技術(shù)。第3章介紹大數(shù)據(jù)處理架構(gòu)Hadoop以及與大數(shù)據(jù)技術(shù)密不可分的云計算技術(shù)及其應(yīng)用。由于Hadoop已經(jīng)成為應(yīng)用*廣泛的大數(shù)據(jù)技術(shù),本書的大數(shù)據(jù)相關(guān)技術(shù)主要圍繞Hadoop展開,包括HDFS和MapReduce。第4章介紹大數(shù)據(jù)管理,包括分布式數(shù)據(jù)庫(HBase)、常用的NoSQL數(shù)據(jù)庫和云數(shù)據(jù)庫。第5章從數(shù)據(jù)挖掘的概念入手,介紹數(shù)據(jù)挖掘的幾種算法以及算法的應(yīng)用。第6章提出大數(shù)據(jù)面臨的安全隱患,介紹大數(shù)據(jù)安全的基本概念以及大數(shù)據(jù)安全與隱私保護(hù)的主要方法。第7章介紹人工智能的起源和基本概念,通過案例介紹一些經(jīng)典的機(jī)器學(xué)習(xí)算法在實際中的應(yīng)用。第8~11章包含4個實驗,對應(yīng)數(shù)據(jù)采集技術(shù)、云計算技術(shù)和數(shù)據(jù)挖掘技術(shù)展開。本書在重視理論的前提下,不忽視實際的可操作性,注重問題的解決,大數(shù)據(jù)基礎(chǔ)與大數(shù)據(jù)技術(shù)部分每章均設(shè)有習(xí)題,以幫助讀者鞏固所學(xué)知識。本書由武漢華夏理工學(xué)院劉春燕和司曉梅主編。在本書編寫的過程中,編者參考了國內(nèi)外大量大數(shù)據(jù)及云計算技術(shù)的文獻(xiàn)資料,且書中部分案例來自網(wǎng)絡(luò),在此一并對相關(guān)作者表示感謝。由于編者能力有限,書中難免存在不妥之處,懇請讀者朋友提出寶貴意見,不勝感激。
劉春燕,女,副教授,計算機(jī)與網(wǎng)絡(luò)工程系副主任。從事專業(yè):計算機(jī)科學(xué)與技術(shù),研究方向:數(shù)據(jù)庫應(yīng)用、大數(shù)據(jù)技術(shù)。近5年,主持省教育廳項目1項,主持湖北省交通物聯(lián)網(wǎng)實驗室開放基金項目1項,主持湖南省高鐵研究中心開放基金項目1項,參與多項省級、院級教科研項目。在國內(nèi)外期刊雜志和學(xué)術(shù)會議上發(fā)表學(xué)術(shù)論文10余篇,其中中文核心期刊2篇,EI檢索會議論文4篇,參編教材2部。指導(dǎo)學(xué)生參加藍(lán)橋杯全國軟件和信息技術(shù)專業(yè)人才大賽獲全國優(yōu)秀獎,被評為優(yōu)秀指導(dǎo)教師。先后榮獲優(yōu)秀科研工作者、年度優(yōu)秀員工、教學(xué)質(zhì)量優(yōu)秀獎等榮譽(yù)稱號。
第1章 大數(shù)據(jù)概述/001
1.1 大數(shù)據(jù)興起之謎/001
1.2 無處不在的大數(shù)據(jù)/004
1.3 大數(shù)據(jù)的概念和特征/013
1.4 大數(shù)據(jù)的關(guān)鍵技術(shù)/016
1.5 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)/022
1.6 大數(shù)據(jù)的發(fā)展、應(yīng)用及挑戰(zhàn)/027
第2章 大數(shù)據(jù)采集與預(yù)處理/032
2.1 大數(shù)據(jù)的來源/032
2.2 大數(shù)據(jù)的采集方法/034
2.3 數(shù)據(jù)預(yù)處理/044
2.4 大數(shù)據(jù)采集應(yīng)用案例互聯(lián)網(wǎng)行業(yè) 職場分析/052
第3章 大數(shù)據(jù)計算平臺/058
3.1 Hadoop平臺/058
3.2 HDFS /062
3.3 大數(shù)據(jù)計算模式/067
3.4 MapReduce /069
3.5 Spark平臺/078
3.6 流計算框架Storm /087
3.7 云計算平臺/091
3.8 云計算的關(guān)鍵技術(shù)/096
第4章 大數(shù)據(jù)管理大數(shù)據(jù)的高效之道/101
4.1 大數(shù)據(jù)管理之NoSQL數(shù)據(jù)庫/101
4.2 NoSQL與關(guān)系型數(shù)據(jù)庫的比較/104
4.3 NoSQL的四大類型/107
4.4 NoSQL的三大基石/111
4.5 新興數(shù)據(jù)庫技術(shù)/114
4.6 大數(shù)據(jù)應(yīng)用案例在北上廣打拼是怎樣一種體驗/120
第5章 數(shù)據(jù)挖掘大數(shù)據(jù)的智慧之道/126
5.1 數(shù)據(jù)挖掘概述/126
5.2 大數(shù)據(jù)挖掘技術(shù)/128
5.3 分類和預(yù)測/129
5.4 聚類分析/139
5.5 關(guān)聯(lián)規(guī)則分析/138
5.6 商業(yè)智能的分析預(yù)測/154
5.7 社交大數(shù)據(jù)的成功密碼/158
5.8 大數(shù)據(jù)應(yīng)用案例大數(shù)據(jù)預(yù)測/163
第6章 大數(shù)據(jù)隱私與安全/1686.1 安全與隱私問題/168
6.2 大數(shù)據(jù)面臨的問題/169
6.3 大數(shù)據(jù)的安全防護(hù)策略/171
6.4 如何解決隱私保護(hù)問題/171
6.5 大數(shù)據(jù)應(yīng)用案例智慧城市中的 安全防護(hù)/175
第7章 人工智能科幻到現(xiàn)實的蛻變/182
7.1 人工智能的起源/182
7.2 當(dāng)人工智能遇上大數(shù)據(jù)/190
7.3 人機(jī)大戰(zhàn):AI會挑戰(zhàn)人類嗎?/192
7.4 AI會取代人類嗎?/194
7.5 AI時代的教育與個人發(fā)展/199
7.6 大數(shù)據(jù)應(yīng)用案例神秘AI的魅力 /203
第8章 數(shù)據(jù)采集實驗/206
第9章 CloudSim虛擬平臺實驗/212
第10章 數(shù)據(jù)挖掘算法之Apriori算法實驗/215
第11章 數(shù)據(jù)挖掘算法之決策樹算法實驗/216
附錄A /218
附錄B /219
附錄C /229
參考文獻(xiàn)/239