本書是高校的大數(shù)據(jù)導(dǎo)論課程教材,清楚地介紹了大數(shù)據(jù)相關(guān)的概念、理論、術(shù)語與基礎(chǔ)技術(shù),并使用真實(shí)連貫的商業(yè)案例以及簡(jiǎn)單的圖表,幫助讀者更清晰地理解大數(shù)據(jù)技術(shù)。本書可作為高等院校相關(guān)專業(yè)“大數(shù)據(jù)基礎(chǔ)”“大數(shù)據(jù)導(dǎo)論”等課程的教材,也可供有一定實(shí)踐經(jīng)驗(yàn)的軟件開發(fā)人員、管理人員和所有對(duì)大數(shù)據(jù)感興趣的人士閱讀。
1.囊括大數(shù)據(jù)的基本知識(shí),也介紹了大數(shù)據(jù)與云計(jì)算、人工智能的關(guān)系
2.提供PPT等教學(xué)資源
安俊秀畢業(yè)于西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),獲工學(xué)碩士學(xué)位。中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員;中國(guó)電子學(xué)會(huì)高級(jí)會(huì)員;成都市科技攻關(guān)計(jì)劃評(píng)審專家;成都軍區(qū)項(xiàng)目評(píng)審專家;汕尾市科技顧問團(tuán)首席顧問。 先后承擔(dān)了《Linux體系和編程》、《軟件項(xiàng)目管理》、《工程導(dǎo)論》、《計(jì)算機(jī)組成原理》等本科課程;承擔(dān)了《云計(jì)算與大數(shù)據(jù)》、《并行計(jì)算》、《Hadoop處理技術(shù)》等研究生課程。 在科研方面,一直從事云計(jì)算與大數(shù)據(jù)、信息智能搜索與計(jì)算社會(huì)方面的研究工作。近三年發(fā)表論文20余篇,其中第一作者10余篇,核心期刊以上占5篇。編寫出版了多本教材。
第1章 大數(shù)據(jù)概述 1
1.1 什么是大數(shù)據(jù) 1
1.1.1 大數(shù)據(jù)的來源 1
1.1.2 大數(shù)據(jù)的定義 5
1.1.3 從信息技術(shù)(IT)轉(zhuǎn)向數(shù)據(jù)
技術(shù)(DT) 5
1.2 大數(shù)據(jù)的數(shù)據(jù)特征及對(duì)科學(xué)研究的
影響 7
1.2.1 大數(shù)據(jù)的數(shù)據(jù)特征 7
1.2.2 大數(shù)據(jù)對(duì)科學(xué)研究的影響 8
1.3 大數(shù)據(jù)的數(shù)據(jù)類型 11
1.4 大數(shù)據(jù)的價(jià)值及相關(guān)技術(shù) 13
1.4.1 大數(shù)據(jù)的可用性及衍生
價(jià)值 13
1.4.2 大數(shù)據(jù)存儲(chǔ)及處理技術(shù) 14
1.5 大數(shù)據(jù)的發(fā)展趨勢(shì) 15
習(xí)題 16
第2章 大數(shù)據(jù)與云計(jì)算 17
2.1 云計(jì)算概述 17
2.1.1 云計(jì)算的提出 17
2.1.2 云計(jì)算的定義 18
2.1.3 云計(jì)算的概念模型 19
2.1.4 云計(jì)算的特點(diǎn) 20
2.2 云計(jì)算的主要部署模式 21
2.2.1 公有云 22
2.2.2 私有云 22
2.2.3 混合云 23
2.3 云計(jì)算的主要服務(wù)模式 24
2.3.1 基礎(chǔ)設(shè)施即服務(wù)(IaaS) 24
2.3.2 平臺(tái)即服務(wù)(PaaS) 26
2.3.3 軟件即服務(wù)(SaaS) 26
2.3.4 3種服務(wù)模式之間的關(guān)系 27
2.4 云計(jì)算與大數(shù)據(jù)體系架構(gòu)的關(guān)系 28
2.4.1 云計(jì)算基礎(chǔ)設(shè)施—
Google平臺(tái) 28
2.4.2 大數(shù)據(jù)基礎(chǔ)設(shè)施—
Hadoop平臺(tái) 29
2.5 物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算之間的
關(guān)系 30
2.5.1 認(rèn)識(shí)物聯(lián)網(wǎng) 31
2.5.2 邊緣計(jì)算 31
2.5.3 霧計(jì)算 33
2.5.4 大數(shù)據(jù)和云計(jì)算之間的
關(guān)系 33
習(xí)題 34
第3章 從產(chǎn)業(yè)結(jié)構(gòu)來探索大數(shù)據(jù)技術(shù) 35
3.1 大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)概述 35
3.2 大數(shù)據(jù)的解決方案 37
3.2.1 大數(shù)據(jù)的產(chǎn)生、采集與處理
方式 37
3.2.2 大數(shù)據(jù)處理的基本流程及
相應(yīng)技術(shù) 40
3.3 大數(shù)據(jù)采集技術(shù) 43
3.3.1 大數(shù)據(jù)采集概述 43
3.3.2 日志采集系統(tǒng)—Flume 44
3.3.3 消息采集系統(tǒng)—Kafka 46
3.3.4 Scrapy網(wǎng)絡(luò)爬蟲框架 47
3.4 大數(shù)據(jù)預(yù)處理技術(shù) 50
3.4.1 數(shù)據(jù)預(yù)處理 50
3.4.2 數(shù)據(jù)清洗 51
3.4.3 數(shù)據(jù)集成 53
3.4.4 數(shù)據(jù)歸約 54
3.5 大數(shù)據(jù)可視化技術(shù) 56
3.5.1 數(shù)據(jù)可視化的概念 56
3.5.2 數(shù)據(jù)可視化的分類 57
3.5.3 數(shù)據(jù)可視化工具 61
3.5.4 大數(shù)據(jù)可視化技術(shù)的
發(fā)展方向 63
習(xí)題 64
第4章 大數(shù)據(jù)的硬件架構(gòu)——集群 65
4.1 集群的來源 65
4.1.1 并行計(jì)算機(jī)的發(fā)展 65
4.1.2 通過計(jì)算機(jī)食物鏈理解
集群 68
4.2 集群的產(chǎn)生促進(jìn)了大數(shù)據(jù)技術(shù)的
發(fā)展 70
4.3 集群系統(tǒng)的概念及分類 72
4.3.1 集群的基本概念 72
4.3.2 集群系統(tǒng)的分類 73
4.4 集群的結(jié)構(gòu)模型 75
4.5 集群文件系統(tǒng) 76
習(xí)題 79
第5章 大數(shù)據(jù)開發(fā)與計(jì)算技術(shù) 80
5.1 Hadoop—分布式大數(shù)據(jù)系統(tǒng) 80
5.1.1 Hadoop概述 80
5.1.2 Hadoop架構(gòu) 81
5.1.3 Hadoop生態(tài)系統(tǒng) 87
5.2 Spark—大規(guī)模數(shù)據(jù)實(shí)時(shí)處理
系統(tǒng) 89
5.2.1 Spark概述 89
5.2.2 彈性分布式數(shù)據(jù)集 94
5.2.3 Spark擴(kuò)展功能 96
5.3 Storm—基于拓?fù)涞牧鲾?shù)據(jù)實(shí)時(shí)
計(jì)算系統(tǒng) 99
5.3.1 Storm概述 99
5.3.2 Storm的組成結(jié)構(gòu) 101
5.3.3 Storm-Yarn概述 102
5.4 Hadoop、Spark與Storm的比較 103
5.5 大數(shù)據(jù)開發(fā)技術(shù)與Web應(yīng)用
開發(fā)技術(shù)的比較 105
5.5.1 Web應(yīng)用開發(fā)技術(shù)簡(jiǎn)介 105
5.5.2 大數(shù)據(jù)開發(fā)技術(shù)簡(jiǎn)介 109
5.5.3 大數(shù)據(jù)開發(fā)技術(shù)與Web應(yīng)用
開發(fā)技術(shù)的應(yīng)用環(huán)境 110
習(xí)題 112
第6章 大數(shù)據(jù)存儲(chǔ)技術(shù) 113
6.1 數(shù)據(jù)存儲(chǔ)概述 113
6.2 分布式文件系統(tǒng) 115
6.2.1 分布式文件系統(tǒng)的設(shè)計(jì)
思路 116
6.2.2 最早的分布式文件系統(tǒng) 118
6.2.3 大數(shù)據(jù)環(huán)境下分布式文件
系統(tǒng)的優(yōu)化思路 119
6.3 結(jié)構(gòu)化大數(shù)據(jù)的存儲(chǔ)—Hive 120
6.3.1 Hive簡(jiǎn)介 120
6.3.2 Hive架構(gòu) 121
6.3.3 Hive數(shù)據(jù)模型與存儲(chǔ) 122
6.4 半結(jié)構(gòu)化大數(shù)據(jù)的存儲(chǔ)—HBase 124
6.4.1 HBase簡(jiǎn)介 124
6.4.2 HBase數(shù)據(jù)模型 125
6.4.3 存儲(chǔ)架構(gòu) 127
6.5 云存儲(chǔ)技術(shù) 134
6.5.1 云存儲(chǔ)的概念及特性 134
6.5.2 云存儲(chǔ)系統(tǒng)的結(jié)構(gòu)模型 136
6.5.3 云存儲(chǔ)的應(yīng)用 138
習(xí)題 139
第7章 大數(shù)據(jù)分析 141
7.1 大數(shù)據(jù)分析與數(shù)據(jù)分析的關(guān)系 141
7.1.1 對(duì)數(shù)據(jù)分析師的要求 142
7.1.2 對(duì)大數(shù)據(jù)分析師的要求 142
7.2 大數(shù)據(jù)分析的重要性及認(rèn)識(shí)數(shù)據(jù) 143
7.2.1 大數(shù)據(jù)分析的重要性 143
7.2.2 認(rèn)識(shí)數(shù)據(jù) 145
7.3 統(tǒng)計(jì)數(shù)據(jù)分析 147
7.4 基于機(jī)器學(xué)習(xí)的數(shù)據(jù)分析 151
7.4.1 機(jī)器學(xué)習(xí)簡(jiǎn)介 151
7.4.2 機(jī)器學(xué)習(xí)的主要用途 153
7.4.3 有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和
強(qiáng)化學(xué)習(xí) 154
7.5 經(jīng)典的機(jī)器學(xué)習(xí)算法 157
7.5.1 分類算法原理 157
7.5.2 決策樹分類算法 157
7.5.3 K-均值聚類算法 158
7.5.4 Apriori關(guān)聯(lián)規(guī)則算法 159
7.5.5 樸素貝葉斯分類算法 159
7.6 基于圖的數(shù)據(jù)分析 161
7.7 基于自然語言的數(shù)據(jù)分析 162
習(xí)題 163
第8章 大數(shù)據(jù)與人工智能 164
8.1 人工智能的概念及分類 164
8.2 人工智能的發(fā)展史 168
8.3 限制人工智能發(fā)展的因素 170
8.4 大數(shù)據(jù)與人工智能的關(guān)系 172
8.5 人工智能核心技術(shù)概述 173
8.5.1 深度學(xué)習(xí) 174
8.5.2 卷積神經(jīng)網(wǎng)絡(luò) 175
8.5.3 圖像處理 176
8.6 人工智能技術(shù)應(yīng)用 177
習(xí)題 179
參考文獻(xiàn) 180