數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論
定 價:49.8 元
- 作者:杜小勇
- 出版時間:2021/2/1
- ISBN:9787115532978
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:234
- 紙張:
- 版次:01
- 開本:16開
本書是高校的大數(shù)據(jù)導(dǎo)論課程教材,清楚地介紹了大數(shù)據(jù)相關(guān)的概念、理論、術(shù)語與基礎(chǔ)技術(shù),并使用真實(shí)連貫的商業(yè)案例以及簡單的圖表,幫助讀者更清晰地理解大數(shù)據(jù)技術(shù)。本書可作為高等院校相關(guān)專業(yè)“大數(shù)據(jù)基礎(chǔ)”“大數(shù)據(jù)道路”等課程的教材,也可供有一定實(shí)踐經(jīng)驗(yàn)的軟件開發(fā)人員、管理人員和所有對大數(shù)據(jù)感興趣的人士閱讀。
1.詳細(xì)介紹數(shù)據(jù)科學(xué)的基本概念和內(nèi)涵
2.培養(yǎng)讀者初步具備用開源工具進(jìn)行數(shù)據(jù)分析的能力
3.培訓(xùn)讀者了解大數(shù)據(jù)技術(shù)的框架,為今后系統(tǒng)學(xué)習(xí)打下基礎(chǔ)
4.培養(yǎng)讀者對大數(shù)據(jù)分析的興趣,愿意為從事該領(lǐng)域的工作進(jìn)一步學(xué)習(xí)
杜小勇,中國人民大學(xué)信息學(xué)院教授,博士生導(dǎo)師。我國著名的數(shù)據(jù)庫專家,曾擔(dān)任過國家863計劃數(shù)據(jù)庫重大專項(xiàng)專家組組長,現(xiàn)為中國計算機(jī)學(xué)會數(shù)據(jù)庫專業(yè)委員會主任。致力于數(shù)據(jù)庫系統(tǒng)核心技術(shù)的研發(fā)與成果轉(zhuǎn)化,科研成果先后獲得過北京市科技進(jìn)步一等獎,中國計算機(jī)學(xué)會科學(xué)技術(shù)一等獎,以及教育部科技進(jìn)步一等獎等。
第1章 數(shù)據(jù)科學(xué)概論 1
1.1 數(shù)據(jù)與大數(shù)據(jù) 1
1.2 大數(shù)據(jù)應(yīng)用案例——從數(shù)據(jù)到知識,數(shù)據(jù)思維淺析 2
1.2.1 數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn) 3
1.2.2 電子商務(wù)與推薦技術(shù) 5
1.2.3 網(wǎng)絡(luò)輿情管理 6
1.2.4 數(shù)據(jù)思維 7
1.3 數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家 7
1.4 數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)課程的內(nèi)容體系與具體內(nèi)容 11
1.5 思考題 12
第2章 Python語言與數(shù)據(jù)科學(xué) 13
2.1 Python概述 13
2.2 Python開發(fā)環(huán)境配置 14
2.3 變量、常量和注釋 16
2.4 數(shù)據(jù)類型 16
2.4.1 布爾型 17
2.4.2 整數(shù) 17
2.4.3 浮點(diǎn)數(shù) 17
2.4.4 字符串 17
2.4.5 列表 18
2.4.6 元組 19
2.4.7 字典 19
2.5 運(yùn)算符及其優(yōu)先級、表達(dá)式 20
2.6 程序的基本結(jié)構(gòu) 21
2.6.1 順序結(jié)構(gòu) 21
2.6.2 分支結(jié)構(gòu) 22
2.6.3 循環(huán)結(jié)構(gòu) 22
2.6.4 編寫完整的程序 23
2.6.5 程序?qū)嵗憾植檎摇?4
2.7 函數(shù)以及庫函數(shù) 24
2.8 面向?qū)ο缶幊獭?7
2.8.1 構(gòu)造函數(shù) 28
2.8.2 對象的摧毀和垃圾回收 28
2.8.3 繼承 28
2.8.4 重寫 28
2.9 異常處理 29
2.10 第三方庫和實(shí)例 29
2.10.1 機(jī)器學(xué)習(xí)庫scikit-learn簡介 30
2.10.2 深度學(xué)習(xí)庫Keras簡介 30
2.10.3 繪圖庫matplotlib簡介 30
2.10.4 社交網(wǎng)絡(luò)與圖數(shù)據(jù)處理庫networkX簡介 31
2.10.5 自然語言處理庫NLTK簡介 31
2.10.6 pandas庫入門 31
2.11 思考題 38
第3章 數(shù)據(jù)分析基礎(chǔ) 39
3.1 數(shù)據(jù)模型 39
3.1.1 數(shù)組 39
3.1.2 圖 42
3.1.3 關(guān)系模型 44
3.1.4 時序模型 45
3.2 數(shù)據(jù)分析流程與數(shù)據(jù)生命期 45
3.2.1 業(yè)務(wù)理解 45
3.2.2 數(shù)據(jù)理解 46
3.2.3 數(shù)據(jù)準(zhǔn)備 46
3.2.4 建!46
3.2.5 評估 47
3.2.6 部署 47
3.3 數(shù)據(jù)分析的基礎(chǔ)方法 47
3.3.1 描述性分析 47
3.3.2 診斷性分析 48
3.3.3 預(yù)測性分析 48
3.3.4 規(guī)范分析 49
3.4 大數(shù)據(jù)平臺 49
3.4.1 Hadoop 49
3.4.2 Hive 51
3.4.3 Mahout 52
3.4.4 Spark 52
3.4.5 Storm 53
3.4.6 Flink 53
3.4.7 Neo4j 54
3.5 思考題 54
第4章 數(shù)據(jù)可視化 55
4.1 可視化的定義 55
4.2 可視化發(fā)展歷程 55
4.3 可視化的意義和價值 57
4.4 數(shù)據(jù)可視化的流程 59
4.5 常見可視化圖表 59
4.5.1 柱狀圖 60
4.5.2 折線圖 61
4.5.3 餅圖 61
4.5.4 散點(diǎn)圖 61
4.5.5 雷達(dá)圖 61
4.6 可視化圖表工具 62
4.7 思考題 64
第5章 數(shù)據(jù)分析與計算 65
5.1 機(jī)器學(xué)習(xí)簡介 65
5.2 分類 67
5.2.1 支持向量機(jī) 67
5.2.2 決策樹 70
5.2.3 樸素貝葉斯方法 72
5.2.4 K最近鄰(KNN)算法 75
5.2.5 邏輯斯蒂回歸 76
5.2.6 分類算法的實(shí)例 77
5.3 聚類 81
5.3.1 K-Means算法 81
5.3.2 DBSCAN算法 83
5.3.3 聚類實(shí)例 85
5.4 回歸 88
5.4.1 線性回歸與多元線性回歸 88
5.4.2 回歸實(shí)例 90
5.5 關(guān)聯(lián)規(guī)則分析 92
5.5.1 關(guān)聯(lián)規(guī)則分析 92
5.5.2 關(guān)聯(lián)規(guī)則分析實(shí)例 95
5.6 推薦 97
5.6.1 基于用戶的協(xié)同過濾推薦 98
5.6.2 基于項(xiàng)目的協(xié)同過濾推薦 100
5.7 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí) 101
5.7.1 神經(jīng)網(wǎng)絡(luò) 101
5.7.2 深度學(xué)習(xí) 104
5.7.3 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)實(shí)例 112
5.8 云計算平臺與主流大數(shù)據(jù)平臺 119
5.8.1 云計算平臺 119
5.8.2 Hadoop大數(shù)據(jù)處理平臺與MapReduce計算模型 121
5.8.3 Spark大數(shù)據(jù)處理平臺與DAG計算模型 128
5.9 思考題 134
第6章 文本分析 135
6.1 文本分析的背景和意義 135
6.2 文本表達(dá) 136
6.2.1 單詞的局域性表示和分布式表示 136
6.2.2 基于話題模型的文本表示 139
6.2.3 基于詞嵌入的文本表示 139
6.3 文本聚類 140
6.3.1 聚類分析問題描述 141
6.3.2 常用聚類算法 142
6.4 文本分類 144
6.4.1 分類問題定義 144
6.4.2 主要文本分類方法 144
6.5 思考題 149
第7章 數(shù)據(jù)存儲與管理 150
7.1 數(shù)據(jù)管理的初級階段——文件管理 150
7.2 層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫 151
7.3 關(guān)系數(shù)據(jù)庫管理系統(tǒng) 153
7.3.1 關(guān)系數(shù)據(jù)模型 153
7.3.2 數(shù)據(jù)操作 154
7.3.3 事務(wù)處理、并發(fā)控制和恢復(fù)技術(shù) 155
7.3.4 SQL入門 156
7.4 NoSQL數(shù)據(jù)庫 160
7.4.1 CAP理論與NoSQL數(shù)據(jù)庫 160
7.4.2 Key Value數(shù)據(jù)庫 161
7.4.3 Column Family數(shù)據(jù)庫 164
7.4.4 Document數(shù)據(jù)庫 165
7.4.5 Graph數(shù)據(jù)庫 166
7.5 NewSQL及其代表VoltDB 167
7.5.1 事務(wù)的串行執(zhí)行 167
7.5.2 通過存儲過程存取數(shù)據(jù)庫 167
7.5.3 數(shù)據(jù)分區(qū)策略考慮盡量避免跨節(jié)點(diǎn)數(shù)據(jù)通信 168
7.5.4 命令日志與恢復(fù)技術(shù) 168
7.6 思考題 168
第8章 數(shù)據(jù)采集與集成 170
8.1 數(shù)據(jù)采集 170
8.1.1 數(shù)據(jù)采集的重要因素 171
8.1.2 推-拉機(jī)制 171
8.1.3 發(fā)布-訂閱機(jī)制 172
8.1.4 大數(shù)據(jù)收集系統(tǒng) 172
8.1.5 自定義連接器 173
8.2 信息抽取 173
8.2.1 信息抽取概述 174
8.2.2 半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù) 174
8.2.3 信息抽取的關(guān)鍵技術(shù) 176
8.3 數(shù)據(jù)清洗 178
8.3.1 數(shù)據(jù)清洗的定義及對象 178
8.3.2 數(shù)據(jù)清洗原理 179
8.3.3 數(shù)據(jù)清洗方法 179
8.4 數(shù)據(jù)集成 181
8.4.1 數(shù)據(jù)集成概述 182
8.4.2 數(shù)據(jù)集成方法 183
8.4.3 數(shù)據(jù)集成的數(shù)據(jù)源異構(gòu)問題 186
8.5 思考題 188
第9章 數(shù)據(jù)治理 189
9.1 數(shù)據(jù)治理的業(yè)務(wù)驅(qū)動力 189
9.2 數(shù)據(jù)治理的概念 190
9.3 數(shù)據(jù)治理的目標(biāo) 191
9.3.1 實(shí)現(xiàn)價值 191
9.3.2 管控風(fēng)險 192
9.4 數(shù)據(jù)治理的要素和框架 192
9.4.1 人員要素 194
9.4.2 技術(shù)要素 196
9.5 數(shù)據(jù)治理的實(shí)踐 201
9.5.1 各個業(yè)務(wù)子系統(tǒng)的建設(shè)和數(shù)據(jù)治理同步推進(jìn) 201
9.5.2 建立數(shù)據(jù)治理的組織機(jī)構(gòu),確定數(shù)據(jù)治理戰(zhàn)略/政策和標(biāo)準(zhǔn) 201
9.5.3 規(guī)劃具體的數(shù)據(jù)治理任務(wù) 201
9.5.4 開展數(shù)據(jù)治理工作 202
9.5.5 數(shù)據(jù)治理的評價 203
9.6 大數(shù)據(jù)時代數(shù)據(jù)治理的挑戰(zhàn) 203
9.7 思考題 204
第10章 數(shù)據(jù)科學(xué)綜合案例 205
10.1 利用現(xiàn)成分類器對Twitter數(shù)據(jù)集進(jìn)行情感分類 206
10.2 如何自行構(gòu)造一個文本分類器 209
10.3 綜合實(shí)例 218
10.4 思考題 232
參考文獻(xiàn) 233