數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)
定 價(jià):49.8 元
- 作者:吳建生 許桂秋
- 出版時(shí)間:2019/4/1
- ISBN:9787115503527
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:170
- 紙張:
- 版次:01
- 開本:16開
本書主要介紹數(shù)據(jù)挖掘的基本技術(shù)和應(yīng)用。數(shù)據(jù)挖掘作為一個(gè)多學(xué)科領(lǐng)域,從多個(gè)學(xué)科汲取營養(yǎng)。這些學(xué)科包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫技術(shù)、信息檢索、網(wǎng)絡(luò)科學(xué)、知識(shí)庫系統(tǒng)、人工智能、高性能計(jì)算和數(shù)據(jù)可視化。我們提供發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的模式的技術(shù),關(guān)注可行性、有用性、有效性和可伸縮性問題。盡管我們確實(shí)提供了這些領(lǐng)域的必要背景材料,以便讀者理解它們各自在數(shù)據(jù)挖掘中的作用。本書中由淺入深的為每個(gè)章節(jié)準(zhǔn)備了案例,使讀者能了解數(shù)據(jù)挖掘技術(shù)是如何運(yùn)用在實(shí)際問題上的,從而靈活運(yùn)用所學(xué)知識(shí)和技能。
中科曙光下的教育培訓(xùn)結(jié)構(gòu),目前在全國有幾十所合作院校,部分高校實(shí)現(xiàn)了課程植入,瑞翼教育對(duì)每個(gè)教育點(diǎn)派駐教學(xué)團(tuán)隊(duì)。一流企業(yè)+高校,大數(shù)據(jù)、人工智能必修課程,企業(yè)案例+實(shí)踐平臺(tái)
吳建生,廣西科技師范學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院教授、碩士生導(dǎo)師。數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院院長,中國計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員、廣西人工智能常務(wù)理事、廣西數(shù)學(xué)學(xué)會(huì)常務(wù)理事。研究領(lǐng)域?yàn)橹悄苡?jì)算、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘。獲得廣西科學(xué)技術(shù)進(jìn)步二等獎(jiǎng)3項(xiàng)。公開發(fā)表研究論文30 多篇,被 SCI、EI 收錄論文18 篇,完成軟件著作8套,發(fā)明專利4個(gè)、實(shí)用新型專利10多個(gè)。
第 1 章 數(shù)據(jù)挖掘概述 1
1.1 數(shù)據(jù)挖掘發(fā)展簡述 1
1.1.1 數(shù)據(jù)時(shí)代 1
1.1.2 數(shù)據(jù)分析的技術(shù)發(fā)展 2
1.2 數(shù)據(jù)挖掘概念 5
1.2.1 數(shù)據(jù)挖掘的定義與OLAP 5
1.2.2 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)KDD 6
1.3 數(shù)據(jù)挖掘的功能與應(yīng)用領(lǐng)域 9
1.3.1 電子商務(wù) 9
1.3.2 電信行業(yè) 10
1.3.3 金融行業(yè) 10
1.3.4 醫(yī)療行業(yè) 10
1.3.5 社會(huì)網(wǎng)絡(luò) 11
1.3.6 數(shù)據(jù)挖掘應(yīng)用的問題 11
1.4 數(shù)據(jù)挖掘的模式類型 11
1.4.1 類/概念描述:特征和區(qū)分 12
1.4.2 回歸(regression) 13
1.4.3 分類(classification) 14
1.4.4 預(yù)測(cè)(forecasting) 15
1.4.5 關(guān)聯(lián)分析(association) 15
1.4.6 聚類分析(cluster) 16
1.4.7 異常檢測(cè)(anomalydetection) 17
1.4.8 小結(jié) 17
1.5 數(shù)據(jù)挖掘的數(shù)據(jù)類型 18
1.5.1 數(shù)據(jù)庫 18
1.5.2 數(shù)據(jù)倉庫數(shù)據(jù) 19
1.5.3 其它數(shù)據(jù)類型 20
1.6 數(shù)據(jù)挖掘的交叉學(xué)科 20
1.6.1 統(tǒng)計(jì)學(xué) 21
1.6.2 機(jī)器學(xué)習(xí) 21
1.6.3 數(shù)據(jù)庫與數(shù)據(jù)倉庫 22
第 2章 Pandas數(shù)據(jù)分析 23
2.1 Pandas與數(shù)據(jù)分析 23
2.1.1 統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘 23
2.1.2 常用的統(tǒng)計(jì)學(xué)指標(biāo) 24
2.1.3 Pandas的簡單介紹 26
2.2 Pandas統(tǒng)計(jì)案例分析 30
2.2.1 實(shí)驗(yàn)實(shí)現(xiàn)Pandas自行車數(shù)據(jù)分析 30
2.2.2 實(shí)驗(yàn)實(shí)現(xiàn)Pandas服務(wù)熱線數(shù)據(jù)分析 36
第3章 數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí) 41
3.1 數(shù)據(jù)挖掘中的機(jī)器學(xué)習(xí) 41
3.1.1 什么是機(jī)器學(xué)習(xí)? 41
3.1.2 機(jī)器學(xué)習(xí)處理的問題 42
3.1.3 機(jī)器學(xué)習(xí)的框架 42
3.1.4 數(shù)據(jù)的加載和分割 43
3.2 機(jī)器學(xué)習(xí)的模型 45
3.2.1 模型的選擇 45
3.2.1 學(xué)習(xí)和預(yù)測(cè) 46
3.2.3 實(shí)驗(yàn)實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型 47
3.3 模型的評(píng)判和保存 48
3.3.1 分類、回歸、聚類不同的評(píng)判指標(biāo) 48
3.3.2 交叉驗(yàn)證 (Cross validation) 49
3.3.3 實(shí)驗(yàn)實(shí)現(xiàn)分類、回歸指標(biāo) 50
3.3.4 實(shí)驗(yàn)實(shí)現(xiàn)cross_val_score 51
3.3.5 實(shí)驗(yàn)實(shí)現(xiàn)模型的保存 52
3.4 支持向量機(jī) 53
3.4.1 支持向量機(jī) 53
3.4.2 實(shí)驗(yàn)實(shí)現(xiàn)支持向量機(jī)分類 54
3.4.3 實(shí)驗(yàn)實(shí)現(xiàn)支持向量機(jī)回歸 55
3.4.4 實(shí)驗(yàn)實(shí)現(xiàn)支持向量機(jī)異常檢測(cè) 55
3.5 過擬合問題 58
3.5.1 過擬合 58
3.5.2 實(shí)驗(yàn)實(shí)現(xiàn)學(xué)習(xí)曲線和驗(yàn)證曲線 59
第4章 分類分析方法與應(yīng)用 62
4.1 數(shù)據(jù)挖掘分類問題 62
4.2 概率模型 63
4.2.1 原理 63
4.2.2 應(yīng)用場景 66
4.3 樸素貝葉斯分類 66
4.3.1 原理與應(yīng)用場景 66
4.3.2 實(shí)驗(yàn)實(shí)現(xiàn)樸素貝葉斯算法 67
4.4 向量空間模型 68
4.4.1 原理與應(yīng)用場景 68
4.4.2 實(shí)驗(yàn)實(shí)現(xiàn)空間向量模型 69
4.5 KNN算法 72
4.5.1 原理與應(yīng)用場景 72
4.5.2 實(shí)驗(yàn)實(shí)現(xiàn)KNN算法 74
4.6 多類問題 76
4.6.1 原理與應(yīng)用場景 76
4.6.2 實(shí)驗(yàn)實(shí)現(xiàn)多類問題 77
第5章 回歸模型算法與應(yīng)用 79
5.1 回歸預(yù)測(cè)問題 80
5.2 線性回歸 81
5.2.1 原理與應(yīng)用場景 81
5.2.2 實(shí)驗(yàn)實(shí)現(xiàn)線性回歸 82
5.3 嶺回歸和LASSO 84
5.3.1 原理與應(yīng)用場景 84
5.3.2 實(shí)驗(yàn)實(shí)現(xiàn)嶺回歸 87
5.4 邏輯回歸 89
5.4.1 原理與應(yīng)用場景 89
5.4.2 實(shí)驗(yàn)實(shí)現(xiàn)邏輯回歸 91
第6章 無監(jiān)督學(xué)習(xí) 94
6.1 無監(jiān)督學(xué)習(xí)問題 94
6.1.1 無監(jiān)督學(xué)習(xí) 94
6.1.2 聚類分析的基本概念與原理 95
6.2 劃分聚類 96
6.2.1 劃分聚類 96
6.2.2 K-Means算法 97
6.2.3 實(shí)驗(yàn)實(shí)現(xiàn)K-Means算法 100
6.3 層次聚類 103
6.3.1 層次聚類算法 103
6.3.2 實(shí)驗(yàn)實(shí)現(xiàn)層次聚類算法實(shí)現(xiàn) 105
6.4 聚類效果評(píng)測(cè) 106
6.4.1 聚類效果的評(píng)測(cè) 106
6.4.2 實(shí)驗(yàn)實(shí)現(xiàn)聚類效果評(píng)測(cè) 107
6.5 降維 108
6.5.1 降維方法 108
6.5.2 實(shí)驗(yàn)實(shí)現(xiàn)降維 108
第7章 關(guān)聯(lián)規(guī)則 110
7.1 關(guān)聯(lián)規(guī)則的概念 111
7.1.1 什么是關(guān)聯(lián)規(guī)則? 111
7.2 Apriori算法 112
7.2.1 Apriori算法概念 112
7.2.2 Apriori算法實(shí)現(xiàn)原理 113
7.2.3 實(shí)驗(yàn)實(shí)現(xiàn)Apriori算法 115
7.3 協(xié)同過濾 119
7.3.1 協(xié)同過濾算法的概念 119
7.3.2 協(xié)同過濾(基于用戶) 120
7.3.3 協(xié)同過濾(基于用戶) 122
7.3.4 實(shí)驗(yàn)實(shí)現(xiàn)協(xié)同過濾算法 124
第8章 圖像數(shù)據(jù)分析 129
8.1 圖像數(shù)據(jù) 129
8.2 圖像數(shù)據(jù)分析方法 131
8.3 圖像數(shù)據(jù)分析案例 133
8.3.1 PIL:Python圖像處理類庫應(yīng)用示例 133
8.3.2 Numpy圖像數(shù)據(jù)分析示例 138
8.3.3 Scipy圖像數(shù)據(jù)分析示例 141
8.3.4 scikit-image 145
8.3.5 綜合練習(xí) 150
第 9 章 自然語言處理與NLTK 151
9.1 自然語言處理概述 151
9.1.1 什么是自然語言處理? 151
9.2 NLTK入門基礎(chǔ) 152
9.2.1 Python的第三方模塊NLTK 152
9.2.2 實(shí)驗(yàn)實(shí)現(xiàn)詞條化 153
9.2.3 實(shí)驗(yàn)實(shí)現(xiàn)詞干還原 154
9.2.4 實(shí)驗(yàn)實(shí)現(xiàn)詞型歸并 155
9.2.5 實(shí)驗(yàn)實(shí)現(xiàn)文本劃分 156
9.2.6 實(shí)驗(yàn)實(shí)現(xiàn)數(shù)值型數(shù)據(jù)的轉(zhuǎn)換 157
9.3 NLTK文本分析 159
9.3.1 實(shí)驗(yàn)實(shí)現(xiàn)文本分類器 159
9.3.2 實(shí)驗(yàn)實(shí)現(xiàn)性別判斷 161
9.3.3 實(shí)驗(yàn)實(shí)現(xiàn)情感分析 162