特征抽取步驟是模式識別系統(tǒng)的核心和關(guān)鍵步驟之一,該步驟直接影響到系統(tǒng)性能的優(yōu)劣。作為模式識別特征抽取領(lǐng)域的一次技術(shù)革命,核方法具有將線性不可分離數(shù)據(jù)變換為線性可分離數(shù)據(jù)的優(yōu)越性能,從而為獲得高分類正確率提供保障。核方法在模式識別、機器學(xué)習(xí)、計算機視覺、工業(yè)自動化與圖像處理等領(lǐng)域的應(yīng)用方興未艾。
作為國內(nèi)首部專門研究核方法的專著,《模式識別中的核方法及其應(yīng)用》力圖繞開晦澀的理論分析,從應(yīng)用的角度對核方法及其優(yōu)化進行形象而直觀的闡述,并結(jié)合人臉識別、性別分類、字符識別等應(yīng)用實例以及機器學(xué)習(xí)領(lǐng)域的基準數(shù)據(jù)集進行介紹。《模式識別中的核方法及其應(yīng)用》在核方法的基礎(chǔ)上,較為詳細地總結(jié)了作者近幾年的研究成果。全書共10章,主要內(nèi)容包括:核方法簡介,核方法目標函數(shù)與核方法改進,特征抽取結(jié)果的逼近與核方法改造,訓(xùn)練集的分析與核方法改造,聯(lián)合不同核方法的特征抽取方案,基于特征相關(guān)分析的核方法以及核函數(shù)參數(shù)選擇問題,各核方法間理論聯(lián)系的分析,以及基于核的非線性特征抽取框架。
《模式識別中的核方法及其應(yīng)用》既可作為計算機科學(xué)與技術(shù)、信息技術(shù)、自動化、電子工程等專業(yè)的科研用書和補充教材,還適合從事模式識別、生物特征識別、機器學(xué)習(xí)、計算機視覺、工業(yè)自動化、圖像處理等研究的技術(shù)人員參考使用。
核方法是20世紀90年代模式識別與機器學(xué)習(xí)領(lǐng)域興起的一場技術(shù)性革命。在繼承非線性方法優(yōu)點的基礎(chǔ)上,核方法以清晰、簡潔的形式為研究者指出了一條在模式識別與機器學(xué)習(xí)領(lǐng)域應(yīng)用非線性技術(shù)的道路。其優(yōu)勢在于允許研究者在原始數(shù)據(jù)對應(yīng)的高維空間使用線性方法來分析和解決問題,且能有效地規(guī)避“維數(shù)災(zāi)難”。在此之前,盡管研究者們很早就認識到將數(shù)據(jù)映射到高維空間有助于提高數(shù)據(jù)的可分性,但由于求解非線性映射的計算代價問題,一直沒有找到好的實現(xiàn)途徑。在模式識別的特征抽取領(lǐng)域,核方法最具特色之處在于其雖等價于先將原數(shù)據(jù)通過非線性映射變換到一高維空間后的線性特征抽取手段,但其不需要執(zhí)行相應(yīng)的非線性變換,也不需知道究竟選擇何種非線性映射關(guān)系。與此同時,研究者可通過選擇不同的核函數(shù)及其參數(shù)來調(diào)節(jié)相應(yīng)的特征抽取效果。雖然具體的非線性映射關(guān)系是未知的,但由于核函數(shù)是非線性映射關(guān)系的具體反映(核函數(shù)指代特征空間中兩個樣本向量間的內(nèi)積),通過對核函數(shù)及其參數(shù)進行選擇即可達到對非線性映射關(guān)系進行優(yōu)化的目的。目前,核方法已大量應(yīng)用到機器學(xué)習(xí)、模式識別、生物特征識別、生物信息學(xué)、數(shù)據(jù)挖掘、機器視覺、圖像去噪、工業(yè)自動化以及機械故障診斷等領(lǐng)域中。
盡管核方法相對普通的非線性方法具有突出的優(yōu)勢,但在實際應(yīng)用中仍然面臨大訓(xùn)練集下實現(xiàn)效率低甚至不能實時應(yīng)用的缺點。眾所周知,利用線性方法對一個樣本抽取特征時,只需將該樣本投影到訓(xùn)練階段得到的一個確定的變換矩陣(一組變換向量)上即可。而核方法對一個樣本進行特征抽取時,需計算該樣本與所有訓(xùn)練樣本之間的核函數(shù)。因此,核方法的特征抽取效率會隨著訓(xùn)練樣本集的增大而下降。
第1章 引論
1.1 解決模式識別問題的技術(shù)框架
1.2 變換技術(shù)與特征抽取
1.3 非線性變換與特征抽取
1.4 核方法的發(fā)展及應(yīng)用
1.4.1 核方法的發(fā)展
1.4.2 核方法的應(yīng)用
1.5 本書所關(guān)注的問題
第2章 核方法簡介
2.1 KMSE及其改進
2.1.1 MSE:KMSE的起源
2.1.2 KMSE的形式化描述
2.1.3 KMSE的改進及方程表達
2.2 KPCA與特征抽取
2.2.1 PCA描述
2.2.2 PCA中核函數(shù)的引入
2.2.3 基于KPCA的特征抽取
2.3 核Fisher鑒別分析
2.3.1 FDA的思路及描述
2.3.2 KFDA的導(dǎo)出
2.3.3 KFDA的改進及方程
2.3.4 基于KFDA及其改進的特征抽取形式
2.4 SVM簡介
2.5 核回歸
2.6 本章小結(jié)
第3章 核方法目標函數(shù)及其優(yōu)化方法
3.1 Fisher準則的變形形式
3.2 選擇顯著訓(xùn)練樣本的算法
3.3 分類實現(xiàn)
3.4 針對多類問題的KFDA優(yōu)化方案
3.5 實驗
3.5.1 基準數(shù)據(jù)集實驗結(jié)果
3.5.2 Yale人臉數(shù)據(jù)庫實驗結(jié)果
3.5.3 性別分類實驗結(jié)果
3.5.4 結(jié)論
3.6 本章小結(jié)
第4章 特征抽取結(jié)果的逼近與核方法改造
4.1 簡單的數(shù)值逼近觀點及核方法改造
4.1.1 KMSE優(yōu)化方案及算法
4.1.2 KMSE及其優(yōu)化模型在多類問題中的應(yīng)用
4.1.3 實驗結(jié)果
4.1.4 結(jié)論
4.2 適用于KMSE優(yōu)化的一個特殊方法
4.2.1 節(jié)點的選擇
4.2.2 分析與討論
4.2.3 實驗
4.2.4 小結(jié)
4.3 另一種數(shù)值分析的觀點
4.3.1 FKMSE算法
4.3.2 時間復(fù)雜度分析
4.3.3 實驗
4.4 本章小結(jié)
第5章 訓(xùn)練集的分析及核方法改造
5.1 KMSE改進思路
5.1.1 KMSE模型再分析
5.1.2 改進KMSE的思路與算法
5.2 實驗
5.3 本章 小結(jié)
第6章 聯(lián)合不同核方法的特征抽取方案
6.1 利用KPCA確定KMSE的節(jié)點
6.2 算法的進一步分析
6.3 實驗分析
6.4 本章小結(jié)
第7章 基于特征相關(guān)分析的核方法改進
7.1 改進思路及算法
7.2 改進KMSE的理論分析
7.3 時間復(fù)雜度分析
7.4 實驗分析
7.4.1 實驗一
7.4.2 實驗二
7.4.3 實驗三
7.5 本章小結(jié)
第8章 核函數(shù)參數(shù)選擇
8.1 基于最小誤差的KMSE核參數(shù)選擇
8.1.1 最優(yōu)參數(shù)選擇方案的設(shè)計
8.1.2 實驗
8.1.3 結(jié)論與討論
8.2 KDA的核函數(shù)參數(shù)選擇問題
8.2.1 引言
8.2.2 最優(yōu)參數(shù)確定算法
8.2.3 實驗
8.2.4 結(jié)論
8.3 選擇KMSE核參數(shù)的解析方法
8.4 本章小結(jié)
第9章 各核方法理論聯(lián)系及再分析
9.1 KPCA與KFDA間聯(lián)系分析
9.2 KMSE與其他核方法間的關(guān)聯(lián)分析
9.2.1 KMSE與KFDA間等效性討論
9.2.2 KMSE與LS-SVM等效性分析
9.3 核方法改進的再探討
9.4 核方法研究動態(tài)
9.5 小結(jié)
第10章 基于產(chǎn)生核的非線性特征抽取框架
10.1 引言
10.2 從函數(shù)到產(chǎn)生核
10.2.1 核的基本概念
10.2.2 依據(jù)函數(shù)得出產(chǎn)生核
10.3 產(chǎn)生核與GKPCA
10.3.1 KPCA的特征方程及其變形
10.3.2 GKPCA
10.3.3 GKPCA的一個等效實現(xiàn)方案
10.4 產(chǎn)生核與KFDA
10.4.1 KFDA回顧
10.4.2 GKFD
10.4.3 FMS-LDA
10.4.4 前文三方法的等效關(guān)系
10.4.5 兩類核相關(guān)的特征抽取方法
10.5 實驗
10.6 本章小結(jié)
參考文獻
這些理論也為核方法的飛速發(fā)展奠定了基石。但線性方法有其固有的局限性,例如,異或問題雖然簡單,但是線性方法卻無力解決。
2.第二階段:一般非線性方法
可以說非線性方法的模式識別應(yīng)用主要歸功于神經(jīng)網(wǎng)絡(luò)研究的發(fā)展。美國生物物理學(xué)家Hopfield的研究成果以及Rumelhart等人提出的反向傳播學(xué)習(xí)算法糾等都為模式識別與機器學(xué)習(xí)領(lǐng)域的非線性革命貢獻了力量,F(xiàn)實世界存在大量的非線性可分問題,非線性技術(shù)能將這些問題變換為線性可分問題,從而使這些問題的分類變得非常容易。在模式識別問題上取得的成功是非線性革命重要性的有力說明。但這時候的非線性算法建立在不完全統(tǒng)計分析的基礎(chǔ)上,研究者對此類學(xué)習(xí)機的理解并不深刻,除了以上啟發(fā)式非線性方法,另一類非線性技術(shù)一般建立在非線性映射的基礎(chǔ)之上,而非線性映射的顯式求解相對于線性情況要復(fù)雜得多,不僅求解的計算效率比較低下,而且某些大規(guī)模的學(xué)習(xí)模型甚至不可解。
3.第三階段:核方法的引入
20世紀90年代中期,出現(xiàn)了基于核函數(shù)的模式識別方法。這種方法不僅使我們能高效地對數(shù)據(jù)分量間存在非線性關(guān)系的數(shù)據(jù)進行模式分析,而且方法本身建立在嚴格的統(tǒng)計分析基礎(chǔ)之上,與線性統(tǒng)計分析方法一樣有著扎實的理論背景?偟膩碚f,核方法有以下兩個優(yōu)勢:一是它在線性與非線性學(xué)習(xí)機間架起了一座橋梁,可以通過核空間的線性模型來解決非線性問題;二是引入核函數(shù)后借助于核技巧,使研究者不必顯式地進行復(fù)雜的高維非線性映射。
目前關(guān)于核方法的研究熱點有以下幾個方面。
(1)降低核方法計算復(fù)雜度。支持向量機的應(yīng)用受限制的一個很重要原因是需要求解凸二次優(yōu)化問題,對于大規(guī)模樣本的數(shù)據(jù)集,其計算具有較高的時間和空間復(fù)雜度。對于其他核方法來講,特征抽取效率也具有與訓(xùn)練樣本個數(shù)相關(guān),且訓(xùn)練樣本越多計算代價越大的缺點。因此,如何在不影響分類性能的前提下,降低計算復(fù)雜度、建立高效的基于核方法的特征抽取(變換)方法,成了核方法一個很重要的研究方向。
。2)核參數(shù)優(yōu)化。