《案例驅動的大數(shù)據原理技術及應用》從大數(shù)據的定義、特征、關鍵技術及其平臺和主要應用出發(fā),密切結合相關案例,揭示了案例對于大數(shù)據的驅動關系。針對這一關系,書中分別介紹了Spark系統(tǒng)和編程方式,大數(shù)據分析基礎算法和實例,面向大數(shù)據的流數(shù)據分析算法和實例、圖算法和實例,大數(shù)據應用編程案例,基于時間序列數(shù)據的預測等內容。
《案例驅動的大數(shù)據原理技術及應用》可作為計算機專業(yè)的教材,也可作為計算機工作者、愛好者的學習參考用書。
在構思一套新的計算機科學技術系列教材時,會有很多考慮。其一,計算機科學提供了一個系統(tǒng)建模、問題求解的新模式。計算機專業(yè)的本科畢業(yè)生應熟練地將計算思維用于問題求解,因此,一套計算機科學技術系列教材也應將計算思維系統(tǒng)地貫穿于整套教材的編寫。其二,計算技術在推動社會、科技高速發(fā)展的同時,其自身也經歷著從以計算為中心到以數(shù)據和交互為中心的范式轉變。計算機專業(yè)的本科畢業(yè)生若能了解有關數(shù)據獲取,存儲,分析,利用的基本方法、技術、工具,定能在其擇業(yè)和職業(yè)發(fā)展中擁有更多的機會,一套面向這一專業(yè)需求、圍繞數(shù)據思維設計的計算機科學技術系列教材就會受到廣大師生的歡迎。其三,在一個更加基礎的層面,一套新的計算機科學技術系列教材應在重新審視本學科核心理論的基礎上,在分析數(shù)據科學、人工智能、密碼與信息安全、計算經濟學、甚至量子計算等交叉學科的基礎上,為本專業(yè)提供一個理論和數(shù)學基礎課程設計,以反應計算機學科及其交叉學科對算法、計算復雜性、概率與統(tǒng)計、線性代數(shù)、矩陣分析、高等代數(shù)、組合數(shù)學、博弈論等數(shù)學分支的依賴。
計算能力的提高不僅在加大計算機科學技術影響力的廣度,還在加速其影響力的深度。計算機教育界目前進行的“計算機+X”和“X+計算機”的討論旨在推動計算機專業(yè)建設,并及時反應這一影響的廣度和深度。我認為這一切都源于一個廣為接受的事實:計算機科學與技術是繼科學實驗和數(shù)學之后,推動人類社會和科技進步的第三股力量。正如科學實驗為自然科學提供了研究手段,數(shù)學為工程提供了建模方法,概率與統(tǒng)計為經濟學提供了工具,計算機科學與技術為自然科學、工程、經濟學提供了全新的研究手段、建模方法和工具。從一個高等教育工作者的角度看,這第三股力量驅動著老學科的改造和新專業(yè)的誕生。
第1章 大數(shù)據基本概念
1.1 大數(shù)據的定義與特征
1.2 大數(shù)據的關鍵技術
1.3 主流的大數(shù)據平臺
1.4 大數(shù)據的主要應用
1.5 本章小結
1.6 習題
第2章 Spark系統(tǒng)與編程簡介
2.1 Spark概述
2.2 Spark系統(tǒng)架構及運行模式
2.3 Spark系統(tǒng)安裝
2.4 Python編程基礎
2.5 Spark的編程方式
2.6 Spark的監(jiān)控管理
2.7 Spark RDD
2.8 編程的基本步驟
2.9 本章小結
2.10 習題
第3章 大數(shù)據分析基礎算法與實例
3.1 大數(shù)據分析概述
3.2 Spark基礎算法
3.3 實例:詞頻統(tǒng)計
3.4 實例:圓周率的計算
3.5 本章小結
3.6 習題
附錄
第4章 面向大數(shù)據的機器學習算法與實例
4.1 機器學習簡介
4.2 Spark M Llib介紹
4.3 機器學習應用實例
4.4 本章小結
4.5 習題
第5章 面向大數(shù)據的流數(shù)據分析算法與實例
5.1 Spark Streaming簡介
5.2 spark streaming架構
5.3 Spark Streaming運行原理
5.4 spark streaming實例
5.5 容錯、持久化和性能優(yōu)化
5.6 本章小結
5.7 習題
第6章 面向大數(shù)據的圖算法與實例
6.1 圖的基本概念
6.2 圖計算的同步機制
6.3 GraphFrames安裝和基礎使用
6.5 最短路徑算法及實例
6.6 網頁排名
6.7 本章小結
6.8 習題
第7章 大數(shù)據應用編程案例
7.1 基于遙感數(shù)據的海冰/雪檢測
7.2 基于時間序列數(shù)據的預測
7.3 本章小結
7.4 習題
參考文獻