本書較為全面地介紹了大數(shù)據(jù)相關技術和應用的現(xiàn)狀。全書共7章:第1章主要介紹大數(shù)據(jù)的基礎概念;第2章和第3章對主流大數(shù)據(jù)框架從不同側面進行了分析對比;第4章主要介紹了信息挖掘中的經(jīng)典算法(C4.5、kmeans、支持向量機、Apriori、EM、PageRank、AdaBoost、Naive Bayes、CART);第5章內(nèi)容為數(shù)據(jù)的可視化;第6章涉及大數(shù)據(jù)與人工智能的聯(lián)系;第7章介紹大數(shù)據(jù)在現(xiàn)實生活中的實際用例。本書既可作為學生教材,也可供大數(shù)據(jù)技術愛好者閱讀參考。
辛陽,男,博士,北京郵電大學信息安全中心副教授。長期從事信息安全及災備領域研究工作,主要涉及電信網(wǎng)安全、下一代網(wǎng)絡安全、移動通信安全、存儲災備技術等,主持及參與過國家863計劃、國家發(fā)改委信息安全專項等近20項國家級及省部級項目。申請專利30多項,軟件著作權12項,出版網(wǎng)絡安全書籍5本,主導國家災備標準四項的編寫工作。
目錄第1章緒論1
1.1什么是大數(shù)據(jù)1
1.2大數(shù)據(jù)的特征2
1.3大數(shù)據(jù)分析的發(fā)展情況3
1.4大數(shù)據(jù)的相關政策4
第2章面向大數(shù)據(jù)的分布式存儲系統(tǒng)5
2.1Bigtable5
2.1.1Bigtable構件5
2.1.2Bigtable實現(xiàn)7
2.1.3Tablet7
2.1.4Bigtable優(yōu)化10
2.1.5Bigtable性能13
2.1.6實際應用14
2.2Google File System16
2.2.1GFS框架16
2.2.2Master節(jié)點17
2.2.3Chunk數(shù)據(jù)塊18
2.2.4元數(shù)據(jù)18
2.2.5系統(tǒng)交互20
2.2.6容錯和診斷22
2.3Dynamo23
2.3.1系統(tǒng)架構24
2.3.2系統(tǒng)實現(xiàn)28
2.3.3故障處理29
2.4小結30
第3章面向大數(shù)據(jù)的分布式處理框架31
3.1Hadoop31
3.1.1概述31
3.1.2實現(xiàn)運行32
3.1.3實際應用32
3.2MapReduce34
3.2.1MapReduce實現(xiàn)34
3.2.2MapReduce的實際應用37
3.3Spark38
3.3.1概述38
3.3.2RDD38
3.3.3Spark處理框架39
3.3.4Spark在實際中的應用40
3.4小結41
第4章面向大數(shù)據(jù)信息挖掘的算法42
4.1C4.542
4.1.1算法描述43
4.1.2算法特性46
4.1.3軟件實現(xiàn)48
4.1.4應用示例48
4.1.5相關研究50
4.1.6小結51
4.2kmeans52
4.2.1算法描述52
4.2.2軟件實現(xiàn)55
4.2.3應用示例55
4.2.4相關研究58
4.2.5小結59
4.3支持向量機59
4.3.1支持向量分類器60
4.3.2支持向量分類器的軟間隔優(yōu)化61
4.3.3核技巧62
4.3.4理論基礎64
4.3.5支持向量回歸器66
4.3.6軟件實現(xiàn)67
4.3.7相關研究67
4.3.8小結69
4.4Apriori70
4.4.1算法描述70
4.4.2挖掘序列模式74
4.4.3軟件實現(xiàn)76
4.4.4應用示例77
4.4.5相關研究79
4.4.6小結84
4.5EM85
4.5.1引言85
4.5.2算法描述86
4.5.3軟件實現(xiàn)86
4.5.4應用示例87
4.5.5相關研究88
4.5.6小結89
4.6PageRank90
4.6.1算法描述91
4.6.2擴展:TimedPageRank94
4.6.3小結95
4.7AdaBoost95
4.7.1算法描述96
4.7.2軟件實現(xiàn)99
4.7.3應用示例99
4.7.4相關研究103
4.7.5小結104
4.8k最近鄰104
4.8.1算法描述105
4.8.2軟件實現(xiàn)107
4.8.3相關研究107
4.8.4小結108
4.9Naive Bayes108
4.9.1算法描述108
4.9.2獨立變量110
4.9.3模型擴展111
4.9.4軟件實現(xiàn)113
4.9.5應用示例113
4.9.6相關研究115
4.9.7小結116
4.10分類和回歸樹算法116
4.10.1算法描述116
4.10.2深度討論118
4.10.3軟件實現(xiàn)120
4.10.4相關研究121
4.10.5小結121
第5章數(shù)據(jù)可視化122
5.1基本可視化圖表122
5.2示例125
5.2.1全國就業(yè)和薪酬分析126
5.2.22015年國內(nèi)外搜索分析128
5.3可視化工具131
5.4D3.js133
5.4.1簡介133
5.4.2搭建一個簡易的D3開發(fā)環(huán)境134
5.4.3如何深入學習D3.js134
第6章大數(shù)據(jù)與人工智能136
6.1什么是深度學習1