本書系統(tǒng)介紹了大數(shù)據(jù)的基本原理與概念,共9章,分別講解大數(shù)據(jù)的基本知識、大數(shù)據(jù)與新一代信息技術(shù)、數(shù)據(jù)采集、大數(shù)據(jù)存儲、數(shù)據(jù)清洗、大數(shù)據(jù)分析與挖掘、數(shù)據(jù)可視化、大數(shù)據(jù)安全與治理以及大數(shù)據(jù)的應(yīng)用。本書系統(tǒng)介紹了大數(shù)據(jù)的基礎(chǔ)知識,并對一些大數(shù)據(jù)的應(yīng)用實例進行講解。
本書可作為高等院校大數(shù)據(jù)專業(yè)、人工智能專業(yè)、軟件技術(shù)專業(yè)、云計算專業(yè)、計算機網(wǎng)絡(luò)專業(yè)的專業(yè)基礎(chǔ)課教材,也可作為大數(shù)據(jù)愛好者的參考書。
(1)全書內(nèi)容面廣,章節(jié)由簡入深,易于學習。
(2)緊跟時代潮流,注重技術(shù)變化,書中包含了新的大數(shù)據(jù)知識及一些開源工具的介紹。
(3)編寫本書的教師都具有多年的教學經(jīng)驗,重難點突出,能夠激發(fā)學生的學習熱情。
黃源,工學碩士,重慶航天職業(yè)技術(shù)學院大數(shù)據(jù)專業(yè)帶頭人,教授,研究方向為大數(shù)據(jù)分析與可視化。近年來負責多項市級教改科研課題,主編出版計算機類教材十余本。
第1章 大數(shù)據(jù)的基本知識 1
1.1 大數(shù)據(jù)概述 1
1.1.1 大數(shù)據(jù)的特征 1
1.1.2 大數(shù)據(jù)的意義 3
1.2 大數(shù)據(jù)的數(shù)據(jù)類型 6
1.2.1 結(jié)構(gòu)化數(shù)據(jù) 6
1.2.2 非結(jié)構(gòu)化數(shù)據(jù) 6
1.2.3 結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別 7
1.3 大數(shù)據(jù)政策 7
1.3.1 國外的大數(shù)據(jù)政策 7
1.3.2 國內(nèi)的大數(shù)據(jù)政策 9
1.4 小結(jié) 10
1.5 習題 10
第2章 大數(shù)據(jù)與新一代信息技術(shù) 11
2.1 大數(shù)據(jù)與云計算 11
2.1.1 云計算概述 11
2.1.2 大數(shù)據(jù)與云計算的區(qū)別與聯(lián)系 17
2.2 大數(shù)據(jù)與物聯(lián)網(wǎng) 18
2.2.1 物聯(lián)網(wǎng)概述 18
2.2.2 大數(shù)據(jù)與物聯(lián)網(wǎng)的區(qū)別與聯(lián)系 21
2.3 大數(shù)據(jù)與人工智能 21
2.3.1 人工智能概述 21
2.3.2 大數(shù)據(jù)與人工智能的區(qū)別與聯(lián)系 25
2.4 大數(shù)據(jù)與區(qū)塊鏈 26
2.4.1 區(qū)塊鏈概述 26
2.4.2 大數(shù)據(jù)與區(qū)塊鏈的區(qū)別與聯(lián)系 27
2.5 小結(jié) 28
2.6 習題 29
第3章 數(shù)據(jù)采集 30
3.1 數(shù)據(jù)采集概述 30
3.1.1 認識數(shù)據(jù)采集 30
3.1.2 數(shù)據(jù)采集的常見方式 31
3.2 數(shù)據(jù)采集平臺 34
3.2.1 Flume 34
3.2.2 Kafka 35
3.2.3 Logstash 37
3.3 網(wǎng)絡(luò)爬蟲 37
3.3.1 認識網(wǎng)絡(luò)爬蟲 37
3.3.2 網(wǎng)絡(luò)爬蟲的分類及特點 40
3.3.3 網(wǎng)絡(luò)爬蟲的道德規(guī)范與法律風險 41
3.4 小結(jié) 42
3.5 習題 43
第4章 大數(shù)據(jù)存儲 44
4.1 大數(shù)據(jù)存儲概述 44
4.1.1 大數(shù)據(jù)存儲的概念 44
4.1.2 大數(shù)據(jù)存儲的分類 45
4.2 Hadoop架構(gòu) 48
4.2.1 認識Hadoop架構(gòu) 48
4.2.2 Hadoop的起源與發(fā)展 49
4.2.3 Hadoop生態(tài)組件 51
4.3 NoSQL數(shù)據(jù)庫 63
4.3.1 認識NoSQL數(shù)據(jù)庫 63
4.3.2 NoSQL數(shù)據(jù)庫的分類 63
4.4 數(shù)據(jù)倉庫 69
4.4.1 認識數(shù)據(jù)倉庫 70
4.4.2 數(shù)據(jù)倉庫的特點 73
4.4.3 數(shù)據(jù)倉庫的應(yīng)用 73
4.5 小結(jié) 74
4.6 習題 74
第5章 數(shù)據(jù)清洗 75
5.1 數(shù)據(jù)清洗概述 75
5.1.1 認識數(shù)據(jù)清洗 75
5.1.2 數(shù)據(jù)清洗的流程 77
5.1.3 數(shù)據(jù)質(zhì)量 78
5.2 數(shù)據(jù)清洗的方法 82
5.2.1 處理缺失值 82
5.2.2 處理異常值 83
5.2.3 處理重復值 85
5.3 數(shù)據(jù)清洗的常用工具 85
5.3.1 Python 85
5.3.2 R 87
5.3.3 Kettle 88
5.3.4 DataCleaner 89
5.4 小結(jié) 91
5.5 習題 91
第6章 大數(shù)據(jù)分析與挖掘 92
6.1 大數(shù)據(jù)分析概述 92
6.1.1 大數(shù)據(jù)分析的概念 92
6.1.2 大數(shù)據(jù)分析的常用方法 97
6.2 數(shù)據(jù)挖掘 102
6.2.1 認識數(shù)據(jù)挖掘 102
6.2.2 數(shù)據(jù)挖掘的應(yīng)用 104
6.3 數(shù)據(jù)挖掘的常見算法 105
6.3.1 K-Means算法 106
6.3.2 KNN算法 107
6.3.3 樸素貝葉斯算法 108
6.3.4 決策樹算法 110
6.3.5 支持向量機算法 112
6.4 小結(jié) 114
6.5 習題 114
第7章 數(shù)據(jù)可視化 115
7.1 數(shù)據(jù)可視化概述 115
7.1.1 認識數(shù)據(jù)可視化 115
7.1.2 數(shù)據(jù)可視化的類型 122
7.2 數(shù)據(jù)可視化的方法 123
7.2.1 文本可視化 123
7.2.2 社交網(wǎng)絡(luò)可視化 125
7.2.3 地理空間可視化 127
7.3 數(shù)據(jù)可視化的常見工具 130
7.3.1 ECharts 130
7.3.2 Excel 133
7.3.3 D3 135
7.3.4 Tableau 137
7.4 小結(jié) 139
7.5 習題 139
第8章 大數(shù)據(jù)安全與治理 140
8.1 大數(shù)據(jù)安全概述 140
8.1.1 認識數(shù)據(jù)安全 140
8.1.2 大數(shù)據(jù)面臨的安全挑戰(zhàn) 143
8.1.3 大數(shù)據(jù)安全的關(guān)鍵技術(shù) 145
8.2 數(shù)據(jù)治理 151
8.2.1 認識數(shù)據(jù)治理 151
8.2.2 數(shù)據(jù)治理的目標 156
8.2.3 數(shù)據(jù)治理的實現(xiàn) 157
8.3 小結(jié) 169
8.4 習題 169
第9章 大數(shù)據(jù)的應(yīng)用 170
9.1 農(nóng)業(yè)大數(shù)據(jù) 170
9.1.1 認識農(nóng)業(yè)大數(shù)據(jù) 170
9.1.2 農(nóng)業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù) 173
9.1.3 農(nóng)業(yè)大數(shù)據(jù)的應(yīng)用 177
9.2 工業(yè)大數(shù)據(jù) 179
9.2.1 認識工業(yè)大數(shù)據(jù) 179
9.2.2 工業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù) 181
9.2.3 工業(yè)大數(shù)據(jù)的應(yīng)用 185
9.3 金融大數(shù)據(jù) 187
9.3.1 認識金融大數(shù)據(jù) 187
9.3.2 金融大數(shù)據(jù)的關(guān)鍵技術(shù) 189
9.3.3 金融大數(shù)據(jù)的應(yīng)用 193
9.4 交通大數(shù)據(jù) 194
9.4.1 認識交通大數(shù)據(jù) 194
9.4.2 交通大數(shù)據(jù)的關(guān)鍵因素 197
9.4.3 交通大數(shù)據(jù)的應(yīng)用 199
9.5 小結(jié) 200
9.6 習題 201
參考文獻 202