本書闡述詞法分析、文本分類、文本聚類、文本檢索、垃圾郵件過濾、情感分析、個性化推薦等文本分析與文本挖掘方面的理論方法。人工智能技術(shù)與互聯(lián)網(wǎng)的發(fā)展更是為該領(lǐng)域研究提出新的需求,書中相關(guān)理論和技術(shù)可以直接用于解決具體文本分析與文本挖掘的問題,也可以為進(jìn)一步研究提供理論方法基礎(chǔ)。本書包括理論、技術(shù),既適合理論方法的學(xué)習(xí),又適合工程實踐。本書配套軟件、更多案例、技術(shù)文檔、配套PPT課件等請登錄和查詢。
更多科學(xué)出版社服務(wù),請掃碼獲取。
目錄
第1章 統(tǒng)計中文分詞技術(shù) 1
1.1 詞法分析問題 1
1.2 詞典與基于規(guī)則分詞 4
1.3 仿詞識別與最少分詞技術(shù) 7
1.4 基于詞網(wǎng)格的N-gram統(tǒng)計分詞技術(shù) 11
1.5 數(shù)據(jù)平滑與專業(yè)詞抽取 18
1.6 本章小結(jié) 25
第2章 詞性標(biāo)注與序列標(biāo)注 27
2.1 三個序列標(biāo)注問題 27
2.2 隱馬爾可夫序列標(biāo)注 31
2.3 CRF模型與序列標(biāo)注 39
2.4 CRF中文詞性標(biāo)注 43
2.5 組合分類器的序列標(biāo)注方法 46
2.6 實驗結(jié)果與分析 52
2.7 本章小結(jié) 56
第3章 命名實體識別 58
3.1 中文命名實體識別特點與任務(wù)描述 58
3.2 ME模型及其適用性 60
3.3 基于ME模型的中文命名實體識別 64
3.4 雙層混合模型方法研究 70
3.5 實驗結(jié)果與分析 74
3.6 本章小結(jié) 78
第4章 文本分類技術(shù) 80
4.1 文本的向量空間模型 80
4.2 文本相似度與kNN分類 85
4.3 樸素貝葉斯文本分類 93
4.4 樸素貝葉斯分類中的特征缺失補償策略 96
4.5 基于SVM的文本分類 102
4.6 基于分類技術(shù)的歧義消解問題 107
4.7 本章小結(jié) 112
第5章 文本聚類技術(shù) 114
5.1 聚類方法與文本聚類問題 114
5.2 k-均值與k-中心點文本聚類方法 119
5.3 文本層次聚類方法 124
5.4 基于聚類技術(shù)的詞義分析 126
5.5 其他聚類方法 130
5.6 本章小結(jié) 133
第6章 文本檢索技術(shù) 135
6.1 Web檢索系統(tǒng)構(gòu)成與文本檢索的評價 135
6.2 信息檢索模型與布爾模型 138
6.3 向量空間模型與相關(guān)性反饋檢索模型 140
6.4 擴(kuò)展的布爾模型與概率模型 145
6.5 信息檢索與信息過濾及信息推薦的關(guān)系 149
6.6 本章小結(jié) 153
第7章 垃圾郵件過濾與情感分析 155
7.1 垃圾郵件過濾問題與框架 155
7.2 樸素貝葉斯垃圾郵件過濾方法 159
7.3 ME模型與SVM垃圾郵件過濾方法 162
7.4 情感分析問題 167
7.5 情感分析方法 172
7.6 本章小結(jié) 181
第8章 個性化協(xié)同過濾推薦技術(shù) 183
8.1 推薦問題提出 183
8.2 通用推薦與個性化推薦 188
8.3 基本協(xié)同過濾推薦方法 192
8.4 基于SVD的協(xié)同過濾推薦 200
8.5 改進(jìn)協(xié)同過濾推薦方法 207
8.6 本章小結(jié) 214
第8第9章 組合推薦技術(shù) 215
9.1 基于內(nèi)容的推薦技術(shù) 215
9.2 基于分類技術(shù)的推薦方法 219
9.3 基于推理的推薦技術(shù) 230
9.4 混合推薦方法 238
9.5 本章小結(jié) 242
參考文獻(xiàn) 243