海量高維離群數(shù)據(jù)挖掘方法與技術(shù)
定 價:98 元
- 作者:趙旭俊 著
- 出版時間:2019/12/1
- ISBN:9787561269237
- 出 版 社:西北工業(yè)大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:241
- 紙張:膠版紙
- 版次:1
- 開本:16開
隨著信息社會的不斷發(fā)展,大數(shù)據(jù)的價值已被社會全面認(rèn)可,如何從大數(shù)據(jù)中挖掘有價值的知識和規(guī)律面臨著巨大技術(shù)挑戰(zhàn)。離群數(shù)據(jù)作為數(shù)據(jù)挖掘的一個重要分支,可從大數(shù)據(jù)中發(fā)現(xiàn)與眾不同的、意義深遠(yuǎn)的特殊現(xiàn)象!逗A扛呔S離群數(shù)據(jù)挖掘方法與技術(shù)》以離群數(shù)據(jù)挖掘及并行計算為研究對象,對基于距離的離群數(shù)據(jù)挖掘、基于加權(quán)k近鄰的離群數(shù)據(jù)挖掘、基于子空間的離群數(shù)據(jù)挖掘以及多數(shù)據(jù)源的離群數(shù)據(jù)挖掘等各種方法和算法進(jìn)行了深入研究,并在高性能集群環(huán)境下,討論分析了各種算法的并行化過程,設(shè)計實現(xiàn)了相應(yīng)的并行算法以及性能優(yōu)化算法。
《海量高維離群數(shù)據(jù)挖掘方法與技術(shù)》可供從事大數(shù)據(jù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)以及并行計算等相關(guān)領(lǐng)域的科研及工程人員參考,也可作為高等院校計算機(jī)、軟件工程及自動化等專業(yè)的本科生與研究生的學(xué)習(xí)參考書。
伴隨著信息時代的到來和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,全球數(shù)據(jù)量的規(guī)模迎來了爆炸式的增長,預(yù)示著進(jìn)入大數(shù)據(jù)時代。然而,在海量、高維數(shù)據(jù)飛速膨脹的同時,知識汲取手段的缺乏和落伍成為大數(shù)據(jù)面臨的重要問題。數(shù)據(jù)挖掘是專門針對海量數(shù)據(jù)提出的一種知識發(fā)現(xiàn)技術(shù),它可以被看作是信息技術(shù)的自然進(jìn)化產(chǎn)物,實現(xiàn)了相關(guān)學(xué)科同應(yīng)用領(lǐng)域的融合,能較好地適應(yīng)大數(shù)據(jù)的發(fā)展。離群數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘領(lǐng)域的一個主要研究內(nèi)容,其目的是從海量原始數(shù)據(jù)集中,識別與大多數(shù)對象具有明顯差異的個別對象,在信用卡欺詐、網(wǎng)絡(luò)魯棒性分析、入侵檢測等領(lǐng)域得到了廣泛的應(yīng)用,F(xiàn)有的大多數(shù)離群挖掘方法主要從全局的角度識別離群數(shù)據(jù),難以適應(yīng)高維的數(shù)據(jù)集。因此,海量、高維離群數(shù)據(jù)挖掘方法的研究具有主要的意義和價值。
近年來,筆者一直從事離群數(shù)據(jù)挖掘及其應(yīng)用的相關(guān)研究,在結(jié)合大數(shù)據(jù)熱點(diǎn)和先進(jìn)的并行計算平臺Hadoop的基礎(chǔ)上,開展了一系列的研究工作,本書是近年來相關(guān)成果的總結(jié)。全書分為6章,除緒論主要介紹大數(shù)據(jù)、并行計算以及數(shù)據(jù)挖掘技術(shù)的基本理論之外,其余章節(jié)編排如下。
第2章為基于距離的離群數(shù)據(jù)挖掘。本章針對基于距離度量的離群數(shù)據(jù)挖掘方法展開研究,提出了基于距離支持度的離群數(shù)據(jù)挖掘、基于分階段模糊聚類的離群數(shù)據(jù)挖掘、基于信息熵的離群數(shù)據(jù)挖掘共3個算法,解決了離群數(shù)據(jù)挖掘效率及準(zhǔn)確性較低的問題,并為后續(xù)章節(jié)天體光譜數(shù)據(jù)的離群挖掘奠定了技術(shù)基礎(chǔ),也為未知天體的識別提供了新方法。
第3章為基于加權(quán)k近鄰的離群數(shù)據(jù)挖掘方法及并行化。本章針對基于近鄰的離群數(shù)據(jù)挖掘方法進(jìn)行深入研究,利用Z-order空間填充曲線,將高維空間數(shù)據(jù)映射到低維空間,并在低維空間上實現(xiàn)加權(quán)k近鄰的查詢。本章還提出加權(quán)k近鄰的離群數(shù)據(jù)挖掘算法,并在Hadoop并行計算平臺上,設(shè)計實現(xiàn)了相應(yīng)的并行算法。
第4章為基于屬性約減的子空間離群數(shù)據(jù)挖掘方法及并行化。本章是面向子空間的離群數(shù)據(jù)挖掘方法的研究,利用屬性約減和稀疏子空間的思想,提出了一種局部離群數(shù)據(jù)挖掘方法。該方法首先通過分析高維數(shù)據(jù)屬性之間的相關(guān)性,剪枝一些與離群檢測不相關(guān)的屬性和對象,達(dá)到縮小原始數(shù)據(jù)集的目的;然后采用稀疏子空間檢測局部離群數(shù)據(jù),并將粒子群優(yōu)化方法用于稀疏子空間的搜索過程。在串行算法的基礎(chǔ)上,本章還設(shè)計開發(fā)了基于MapReduce的并行算法,在適應(yīng)高維數(shù)據(jù)特征的同時,解決了海量離群數(shù)據(jù)挖掘問題。
第5章為多源離群數(shù)據(jù)并行挖掘方法與性能優(yōu)化。前面的章節(jié)都是基于單個數(shù)據(jù)源實施的離群數(shù)據(jù)挖掘,但隨著數(shù)據(jù)獲取和數(shù)據(jù)來源日益豐富,從多源數(shù)據(jù)集中檢測離群,能發(fā)現(xiàn)更有價值的關(guān)聯(lián)性知識。本章在給出三種不同類型的多源離群及其形式化描述之后,提出了多數(shù)據(jù)源中檢測離群的基準(zhǔn)算法和改進(jìn)算法,并利用MapReduce的強(qiáng)大計算能力,提出了基于kNN-join的多源離群并行挖掘算法。本章還針對并行kNN-join操作中出現(xiàn)的數(shù)據(jù)傾斜現(xiàn)象,提出了一種新的數(shù)據(jù)劃分方法——kNN-DP,有效地緩解了并行環(huán)境中負(fù)載不平衡問題。
第6章為海量高維離群數(shù)據(jù)挖掘應(yīng)用。本章重點(diǎn)介紹離群數(shù)據(jù)挖掘技術(shù)在天體光譜、智能制造中的應(yīng)用。在詳細(xì)介紹需求分析的基礎(chǔ)上,設(shè)計并實現(xiàn)了天體光譜離群數(shù)據(jù)挖掘系統(tǒng)以及冷軋輥加工工序異常檢測系統(tǒng),給出了這些系統(tǒng)的功能模塊、體系結(jié)構(gòu),以及系統(tǒng)運(yùn)行的相關(guān)界面。最后對運(yùn)行結(jié)果進(jìn)行了詳細(xì)的分析,并對獲取的離群數(shù)據(jù)做出合理解釋說明。
本書的寫作得到了太原科技大學(xué)人工智能實驗室、計算機(jī)科學(xué)與技術(shù)學(xué)院各位老師的大力支持,特別是張繼福教授、蔡江輝教授、楊海峰教授為本書提出了許多寶貴的建議,在此一并致以誠摯的感謝。
第1章 緒論
1.1 大數(shù)據(jù)及大數(shù)據(jù)挖掘
1.2 離群數(shù)據(jù)挖掘方法
1.3 集群系統(tǒng)與并行計算模型
第2章 基于距離的離群數(shù)據(jù)挖掘
2.1 基于距離支持度的離群數(shù)據(jù)挖掘方法
2.2 基于分階段模糊聚類的離群數(shù)據(jù)挖掘方法
2.3 基于信息熵的離群數(shù)據(jù)挖掘方法
第3章 基于加權(quán)k近鄰的離群數(shù)據(jù)挖掘方法及并行化
3.1 問題提出
3.2 基于Z-order的加權(quán)k近鄰與離群數(shù)據(jù)挖掘
3.3 基于MapReduce的并行加權(quán)k近鄰與離群數(shù)據(jù)挖掘
第4章 基于屬性約減的子空間離群挖掘方法及并行化
4.1 基于屬性相關(guān)分析的子空間離群數(shù)據(jù)挖掘
4.2 基于MapReduce的上下文離群數(shù)據(jù)并行挖掘
第5章 多源離群數(shù)據(jù)并行挖掘方法與性能優(yōu)化
5.1 基于kNN-join的多源離群并行挖掘
5.2 基于MapReduce的并行kNN-join數(shù)據(jù)傾斜
第6章 海量高維離群數(shù)據(jù)挖掘應(yīng)用
6.1 天體光譜離群數(shù)據(jù)挖掘系統(tǒng)設(shè)計與實現(xiàn)
6.2 冷軋輥異常加工工序檢測原型系統(tǒng)
參考文獻(xiàn)