數(shù)據(jù)挖掘與機器學習:基礎概念和算法(原書第2版)
定 價:199 元
叢書名:計算機科學叢書
- 作者:[美]穆罕默德·J.扎基[巴]小瓦格納·梅拉著
- 出版時間:2023/6/1
- ISBN:9787111726890
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書詳實介紹了數(shù)據(jù)挖掘與機器學習相關的各種內容,包括數(shù)據(jù)矩陣、圖數(shù)據(jù)、核方法、項集挖掘、聚類、貝葉斯分類器、決策樹、支持向量機、線性回歸、邏輯回歸、神經網絡、深度學習等,介紹其相關概念和基礎算法,并在每章的末尾配有相關練習。第二版新增了幾個關于回歸的章節(jié),包括神經網絡和深度學習的內容。
前 言
Data Mining and Machine Learning
數(shù)據(jù)挖掘和機器學習使人們能夠從數(shù)據(jù)中獲得基本的洞察和知識,從大規(guī)模數(shù)據(jù)中發(fā)現(xiàn)深刻、有趣和新穎的模式,以及描述性、可理解和可預測的模型。
這個領域有很多相關圖書,但它們要么太高深,要么太前沿。本書是一本普及性的書,介紹了機器學習和數(shù)據(jù)挖掘的基本概念與算法基礎。本書中次提到某個概念時會對其進行詳細解釋,給出詳細的步驟和推導過程。本書旨在通過數(shù)據(jù)和方法的幾何解釋、(線性)代數(shù)解釋與概率解釋,探討公式背后的原理。
本書第2版增加了回歸的部分,包括線性回歸、邏輯(logistic)回歸、神經網絡和深度學習。另外有幾章的內容有更新,已知的錯誤也已修復。本書內容主要包括數(shù)據(jù)分析基礎、頻繁模式挖掘、聚類、分類和回歸。這些內容涵蓋核心方法及前沿主題,例如深度學習、核方法、高維數(shù)據(jù)分析和圖分析。
本書列舉了許多例子來說明相關概念和算法,章末還配有練習題。本書中的所有算法都已由作者實現(xiàn)。建議讀者自己實現(xiàn)這些算法(例如,使用Python或R語言實現(xiàn))以加深理解;脽羝、數(shù)據(jù)集和視頻等補充資源可通過本書的配套網站http://dataminingbook.info在線獲取。
本書適合用于數(shù)據(jù)挖掘、機器學習和數(shù)據(jù)科學領域本科生和研究生階段的課程。本書每一部分開頭都會概括介紹本部分的各章。雖然各章大多是自成體系的(重點強調了重要的方程),但部分關于數(shù)據(jù)分析的基礎性介紹也是有用的。例如,部分中的“核方法”一章(第5章)應該在后面章節(jié)出現(xiàn)的其他基于核的算法之前介紹。讀者可以根據(jù)課程的重點或自己的興趣,按不同的順序閱讀不同的部分。后,歡迎各位讀者通過本書配套網站聯(lián)系我們,提出勘誤或其他建議。
目 錄
Data Mining and Machine Learning
譯者序
前言
作者簡介
部分 數(shù)據(jù)分析基礎 1
第1章 數(shù)據(jù)矩陣 3
1.1 數(shù)據(jù)矩陣的組成 3
1.2 屬性 4
1.3 數(shù)據(jù):代數(shù)和幾何觀點 5
1.3.1 距離和角度 7
1.3.2 均值和總方差 9
1.3.3 正交投影 10
1.3.4 線性無關和維數(shù) 12
1.4 數(shù)據(jù):概率觀點 13
1.4.1 二元隨機變量 17
1.4.2 多元隨機變量 20
1.4.3 隨機抽樣與統(tǒng)計 21
1.5 拓展閱讀 22
1.6 練習 23
第2章 數(shù)值型屬性 24
2.1 一元分析 24
2.1.1 集中趨勢度量 25
2.1.2 離散度度量 28
2.2 二元分析 32
2.2.1 位置和離散度的度量 33
2.2.2 相關性度量 33
2.3 多元分析 37
2.4 數(shù)據(jù)歸一化 41
2.5 正態(tài)分布 42
2.5.1 一元正態(tài)分布 43
2.5.2 多元正態(tài)分布 44
2.6 拓展閱讀 47
2.7 練習 47
第3章 類別型屬性 49
3.1 一元分析 49
3.1.1 伯努利變量 49
3.1.2 多元伯努利變量 51
3.2 二元分析 56
3.3 多元分析 65
3.4 距離和角度 69
3.5 離散化 70
3.6 拓展閱讀 72
3.7 練習 72
第4章 圖數(shù)據(jù) 74
4.1 圖的概念 74
4.2 拓撲屬性 77
4.3 中心度分析 81
4.3.1 基本中心度 81
4.3.2 Web中心度 82
4.4 圖模型 89
4.4.1 Erd?s-Rényi隨機圖模型 91
4.4.2 Watts-Strogatz小世界圖
模型 94
4.4.3 Barabási-Albert無標度模型 98
4.5 拓展閱讀 104
4.6 練習 105
第5章 核方法 107
5.1 核矩陣 110
5.1.1 再生核映射 111
5.1.2 Mercer核映射 113
5.2 向量核 115
5.3 特征空間中的基本核運算 119
5.4 復雜對象的核 124
5.4.1 字符串的譜核 124
5.4.2 圖節(jié)點的擴散核 125
5.5 拓展閱讀 129
5.6 練習 129
第6章 高維數(shù)據(jù) 130
6.1 高維對象 130
6.2 高維體積 133
6.3 超立方體的內接超球面 135
6.4 薄超球面殼的體積 136
6.5 超空間的對角線 137
6.6 多元正態(tài)分布的密度 138
6.7 附錄:超球面體積的推導 140
6.8 拓展閱讀 143
6.9 練習 144
第7章 降維 146
7.1 背景介紹 146
7.2 主成分分析 149
7.2.1 一維近似 149
7.2.2 二維近似 152
7.2.3 r維近似 155
7.2.4 主成分分析的幾何意義 158
7.3 核主成分分析 160
7.4 奇異值分解 166
7.4.1 奇異值分解中的幾何
意義 167
7.4.2 SVD和PCA之間的
聯(lián)系 168
7.5 拓展閱讀 169
7.6 練習 169
第二部分 頻繁模式挖掘 171
第8章 項集挖掘 173
8.1 頻繁項集和關聯(lián)規(guī)則 173
8.2 項集挖掘算法 176
8.2.1 逐層方法:Apriori算法 177
8.2.2 事務標識符集的交集方法:
Eclat算法 181
8.2.3 頻繁模式樹方法:FPGrowth
算法 184
8.3 生成關聯(lián)規(guī)則 188
8.4 拓展閱讀 189
8.5 練習 190
第9章 項集概覽 194
9.1 頻繁項集和閉頻繁項集 194
9.2 挖掘頻繁項集:GenMax
算法 196
9.3 挖掘閉頻繁項集:Charm算法 198
9.4 非可導項集 200
9.5 拓展閱讀 205
9.6 練習 205
第10章 序列挖掘 208
10.1 頻繁序列 208
10.2 挖掘頻繁序列 209
10.2.1 逐層挖掘:GSP 209
10.2.2 垂直序列挖掘:Spade 211
10.2.3 基于投影的序列挖掘:
PrefixSpan 212
10.3 基于后綴樹的子串挖掘 214
10.3.1 后綴樹 214
10.3.2 Ukkonen線性時間復雜度
算法 217
10.4 拓展閱讀 222
10.5 練習 223
第11章 圖模式挖掘 226
11.1 同構與支持度 226
11.2 候選圖生成 229
11.3 gSpan算法 232
11.3.1 擴展和支持度計算 233
11.3.2 權威性檢測 238
11.4 拓展閱讀 239
11.5 練習 239
第12章 模式評估與規(guī)則評估 242
12.1 模式評估和規(guī)則評估的度量 242
12.1.1 規(guī)則評估度量 242
12.1.2 模式評估度量 249
12.1.3 比較多條規(guī)則和模式 251
12.2 顯著性檢驗和置信區(qū)間 253
12.2.1 產生式規(guī)則的費希爾
精確檢驗 254
12.2.2 顯著性的置換檢驗 257
12.2.3 置信區(qū)間內的自助抽樣 261
12.3 拓展閱讀 262
12.4 練習 263
第三部分 聚類 265
第13章 基于代表點的聚類 267
13.1 K-means算法 267
13.2 核K-means 271
13.3 期望化聚類 274
1