目錄
第1章緒論
1.1數(shù)據(jù)與數(shù)據(jù)科學(xué)
1.2大數(shù)據(jù)概念
1.3大數(shù)據(jù)技術(shù)特征
參考文獻
習(xí)題
第2章大數(shù)據(jù)計算體系
2.1大數(shù)據(jù)計算架構(gòu)
2.2數(shù)據(jù)存儲系統(tǒng)
2.2.1數(shù)據(jù)清洗與建模
2.2.2分布式文件系統(tǒng)
2.2.3NoSQL數(shù)據(jù)庫
2.2.4統(tǒng)一數(shù)據(jù)訪問接口
2.3數(shù)據(jù)處理平臺
2.3.1數(shù)據(jù)分析算法
2.3.2計算處理模型
2.3.3計算平臺與引擎
2.4數(shù)據(jù)應(yīng)用系統(tǒng)
2.4.1大數(shù)據(jù)應(yīng)用領(lǐng)域
2.4.2大數(shù)據(jù)解決方案
參考文獻
習(xí)題
第3章大數(shù)據(jù)標準與模式
3.1大數(shù)據(jù)標準體系
3.2大數(shù)據(jù)計算模式
參考文獻
習(xí)題
第4章數(shù)據(jù)采集方法
4.1系統(tǒng)日志采集
4.1.1日志采集的目的
4.1.2日志采集過程
4.2網(wǎng)絡(luò)數(shù)據(jù)采集
4.2.1網(wǎng)絡(luò)爬蟲工作原理
4.2.2網(wǎng)頁搜索策略
4.2.3網(wǎng)頁分析算法
4.2.4網(wǎng)絡(luò)爬蟲框架
4.3數(shù)據(jù)采集接口
參考文獻
習(xí)題
第5章數(shù)據(jù)清洗與規(guī)約方法
5.1數(shù)據(jù)預(yù)處理研究現(xiàn)狀
5.1.1數(shù)據(jù)清洗的研究現(xiàn)狀
5.1.2數(shù)據(jù)規(guī)約的研究現(xiàn)狀
5.2數(shù)據(jù)質(zhì)量問題分類
5.2.1單數(shù)據(jù)源的問題
5.2.2多數(shù)據(jù)源的問題
5.3數(shù)據(jù)清洗技術(shù)
5.3.1重復(fù)記錄清洗
5.3.2消除噪聲數(shù)據(jù)
5.3.3缺失值清洗
5.4數(shù)據(jù)歸約
5.4.1維歸約
5.4.2屬性選擇
5.4.3離散化方法
5.5數(shù)據(jù)清洗工具
參考文獻
習(xí)題
第6章數(shù)據(jù)分析算法
6.1C4.5算法
6.1.1算法描述
6.1.2屬性選擇度量
6.1.3其他特征
6.2k均值算法
6.3支持向量機
6.4Apriori算法
6.5EM算法
6.5.1案例: 估計k個高斯分布的均值
6.5.2EM算法步驟
6.6PageRank算法
6.6.1PageRank的核心思想
6.6.2PageRank的計算過程
6.7AdaBoost算法
6.7.1Boosting算法的發(fā)展歷史
6.7.2AdaBoost算法及其分析
6.8k鄰近算法
6.9樸素貝葉斯
6.9.1樸素貝葉斯分類器
6.9.2貝葉斯網(wǎng)絡(luò)
6.10分類回歸樹算法
6.10.1建立回歸樹
6.10.2剪枝過程
參考文獻
習(xí)題
第7章文本讀寫技術(shù)
7.1讀取文本文件
7.1.1讀取txt文件
7.1.2讀取csv文件
7.2寫入文本文件
7.3處理二進制數(shù)據(jù)
7.4數(shù)據(jù)庫的使用
7.4.1數(shù)據(jù)庫的連接
7.4.2執(zhí)行SQL語句
7.4.3選擇和打印
7.4.4動態(tài)插入
7.4.5update操作
參考文獻
習(xí)題
第8章數(shù)據(jù)處理技術(shù)
8.1合并數(shù)據(jù)集
8.1.1索引上的合并
8.1.2軸向連接
8.1.3合并重疊數(shù)據(jù)
8.2數(shù)據(jù)轉(zhuǎn)換
8.2.1移除重復(fù)數(shù)據(jù)
8.2.2利用函數(shù)進行數(shù)據(jù)轉(zhuǎn)換
8.2.3替換值
8.2.4重命名軸索引
8.2.5離散化數(shù)據(jù)
8.2.6檢測異常值
8.2.7排列和隨機采樣
8.2.8啞變量
8.3字符串操作
8.3.1內(nèi)置字符串方法
8.3.2正則表達式
8.3.3Pandas中矢量化的字符串函數(shù)
參考文獻
習(xí)題
第9章數(shù)據(jù)分析技術(shù)
9.1NumPy工具包
9.1.1創(chuàng)建數(shù)組
9.1.2打印數(shù)組
9.1.3基本運算
9.1.4索引、切片和迭代
9.1.5形狀操作
9.1.6復(fù)制和視圖
9.1.7NumPy實用技巧
9.2Pandas工具包
9.2.1Series
9.2.2DataFrame
9.3ScikitLearn工具包
9.3.1邏輯回歸
9.3.2樸素貝葉斯
9.3.3k最近鄰
9.3.4決策樹
9.3.5支持向量機
9.3.6優(yōu)化算法參數(shù)
參考文獻
習(xí)題
第10章數(shù)據(jù)可視化技術(shù)
10.1Matplotlib繪圖
10.1.1Matplotlib API入門
10.1.2Figure和Subplot的畫圖方法
10.1.3調(diào)整Subplot周圍的間距
10.1.4顏色、標記和線型的設(shè)置
10.1.5刻度、標簽和圖例
10.2Mayavi2繪圖
10.2.1使用mlab快速繪圖
10.2.2Mayavi嵌入到界面中
10.3其他圖形化工具
參考文獻
習(xí)題
第11章Hadoop生態(tài)系統(tǒng)
11.1Hadoop系統(tǒng)架構(gòu)
11.2HDFS分布式文件系統(tǒng)
11.2.1HDFS體系結(jié)構(gòu)
11.2.2HDFS存儲結(jié)構(gòu)
11.2.3數(shù)據(jù)容錯與恢復(fù)
11.2.4Hadoop/HDFS安裝
11.3分布式存儲架構(gòu)
11.3.1HBase系統(tǒng)架構(gòu)
11.3.2數(shù)據(jù)模型與存儲模式
11.3.3HBase數(shù)據(jù)讀寫
11.3.4數(shù)據(jù)倉庫工具Hive
11.3.5HBase安裝與配置
11.4HBase索引與檢索
11.4.1二次索引表機制
11.4.2二次索引技術(shù)方案
11.5資源管理與作業(yè)調(diào)度
11.5.1分布式協(xié)同管理組件ZooKeeper
11.5.2作業(yè)調(diào)度與工作流引擎Oozie
11.5.3集群資源管理框架YARN
參考文獻
習(xí)題
第12章MapReduce計算模型
12.1分布式并行計算系統(tǒng)
12.2MapReduce計算架構(gòu)
12.3鍵值對與輸入格式
12.4映射與化簡
12.5應(yīng)用編程接口
參考文獻
習(xí)題
第13章圖并行計算框架
13.1圖基本概念
13.2BSP模型
13.3Pregel圖計算引擎
13.4Hama開源框架
13.5應(yīng)用編程接口
參考文獻
習(xí)題
第14章交互式計算模式
14.1數(shù)據(jù)模型
14.2存儲結(jié)構(gòu)
14.3并行查詢
14.4開源實現(xiàn)
參考文獻
習(xí)題
第15章流計算系統(tǒng)
15.1流計算模型
15.2Storm計算架構(gòu)
15.3工作機制實現(xiàn)
15.4Storm編程接口
參考文獻
習(xí)題
第16章內(nèi)存計算模式
16.1分布式緩存體系
16.2內(nèi)存數(shù)據(jù)庫
16.3內(nèi)存云MemCloud
16.4Spark內(nèi)存計算
參考文獻
習(xí)題
第17章基于醫(yī)療數(shù)據(jù)的臨床決策分析應(yīng)用
17.1國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài)分析
17.2技術(shù)路線和方案
參考文獻
習(xí)題
第18章基于醫(yī)保數(shù)據(jù)的預(yù)測分析應(yīng)用
18.1數(shù)據(jù)準備階段
18.2模型變量選擇和轉(zhuǎn)換
18.2.1模型變量的選擇
18.2.2模型變量的轉(zhuǎn)換
18.2.3篩選模型變量
18.3建模過程
18.4模型效果
參考文獻
習(xí)題
第19章互聯(lián)網(wǎng)電商數(shù)據(jù)的分析應(yīng)用
19.1電商流程管理分析
19.1.1行業(yè)背景與業(yè)務(wù)問題
19.1.2分析方法與過程
19.2用戶消費行為分析
19.2.1業(yè)務(wù)問題
19.2.2分析方法與過程
19.3送貨速度相關(guān)性分析
19.3.1業(yè)務(wù)問題
19.3.2分析方法與過程
19.4總結(jié)
參考文獻
習(xí)題
第20章金融和經(jīng)濟數(shù)據(jù)的分析應(yīng)用
20.1企業(yè)對創(chuàng)新經(jīng)濟活動推動的影響分析
20.1.1案例背景
20.1.2分析方法與過程
20.2信貸風(fēng)險模型評估
20.3中小能源型企業(yè)的信用評價分析
20.3.1案例背景
20.3.2分析方法與過程
20.3.3分析結(jié)果
參考文獻
習(xí)題