本書包括五個部分:第yi部分介紹文本情感分析的研究背景、研究現(xiàn)狀和基礎(chǔ)技術(shù);第二部分從內(nèi)容語義理解的角度出發(fā),介紹基于隱式表達(dá)的諷刺檢測技術(shù);第三部分從用戶個性化建模的角度出發(fā),介紹多輪對話中的情緒分析技術(shù);第四部分介紹小樣本場景下的立場檢測解決方案;第五部分介紹對抗攻擊場景下的情感分類防御技術(shù)。
前言
文本情感分析是自然語言處理、人工智能與認(rèn)知科學(xué)等領(lǐng)域的重要研究方向之一。通過計算機(jī)自動進(jìn)行文本情感分析的研究始于20世紀(jì)90年代,早期研究以文本情感分類為主,即把文本按照主觀傾向性分成正面、負(fù)面和中性三類。其中正面類別是指文本體現(xiàn)出支持的、積極的、喜歡的態(tài)度和立場,負(fù)面類別是指文本體現(xiàn)出反對的、消極的、厭惡的態(tài)度和立場,中性類別是指沒有偏向的態(tài)度和立場。隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們越來越習(xí)慣于在社交網(wǎng)絡(luò)上發(fā)表主觀性言論。社交網(wǎng)絡(luò)中的大量用戶生成數(shù)據(jù)為情感分析提供了新的機(jī)遇,同時也帶來了新的挑戰(zhàn)。
從內(nèi)容的角度看,很多言論所蘊(yùn)含的情感是隱式的,而機(jī)器很難從表面文字推理言外之意;從用戶的角度看,每個人的性格不同導(dǎo)致情感表達(dá)的方式也不同,所以要考慮用戶特征進(jìn)行個性化情感分析,不能一概而論;從語料的角度看,對于低資源領(lǐng)域或者任務(wù),已有的數(shù)據(jù)驅(qū)動模型難以取得令人滿意的效果;從魯棒性和安全性的角度看,現(xiàn)有的深度學(xué)習(xí)模型很容易受到不易覺察的對抗攻擊,從而產(chǎn)生錯誤的情感預(yù)測。因此,傳統(tǒng)的文本情感分析方法已經(jīng)難以滿足復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)的分析需求。此外,隨著個性化推薦、用戶畫像分析、對話機(jī)器人等新技術(shù)和新應(yīng)用的興起,相關(guān)的情感分析技術(shù)也需要不斷升級,從而提供更加智能化、更加人性化、更加共情的情感分析服務(wù)。
本書針對以上挑戰(zhàn),全面系統(tǒng)地介紹高級文本情感分析的核心技術(shù)與應(yīng)用實(shí)踐。本書包括五個部分:部分介紹文本情感分析的研究背景、研究現(xiàn)狀和基礎(chǔ)技術(shù);第二部分從內(nèi)容語義理解的角度出發(fā),介紹基于隱式表達(dá)的諷刺檢測技術(shù);第三部分從用戶個性化建模的角度出發(fā),介紹多輪對話中的情緒分析技術(shù);第四部分介紹小樣本場景下的立場檢測解決方案;第五部分介紹對抗攻擊場景下的情感分類防御技術(shù)。
本書可以為人工智能、機(jī)器學(xué)習(xí)、自然語言處理和社會計算等領(lǐng)域的從業(yè)者和科研人員提供一些前沿視野及相關(guān)理論、方法和技術(shù),如基于隱式表達(dá)的諷刺檢測、面向個性化的多輪對話情緒分析、小樣本場景下的立場檢測等,也可作為相關(guān)專業(yè)高年級本科生或研究生的參考教材。
由于作者水平有限,因此盡管盡了的努力,但書中依然難免存在疏漏和錯誤之處,敬請廣大專家、讀者批評指正。
作者
2023年1月
林政 中國科學(xué)院信息工程研究所研究員、博士生導(dǎo)師,中國科學(xué)院信息工程研究所第三研究室IIE-NLP小組負(fù)責(zé)人。主要研究領(lǐng)域是自然語言處理、網(wǎng)絡(luò)內(nèi)容安全,具體包括情感/情緒分析、機(jī)器閱讀理解、神經(jīng)網(wǎng)絡(luò)模型壓縮等研究任務(wù)。在2018、2019年連續(xù)獲得兩屆全國“軍事智能-機(jī)器閱讀”挑戰(zhàn)賽冠軍。2020年在常識推理閱讀國際比賽排行榜上取得了三個任務(wù)的名。近幾年在TASLP、ACL、EMNLP、AAAI、IJCAI、WWW、CIKM、WSDM、ICMR等國內(nèi)外學(xué)術(shù)會議和期刊上發(fā)表論文50篇,入選科技部F5000優(yōu)秀論文,獲得國家自然科學(xué)基金青年項目、面上項目、國家重點(diǎn)研發(fā)計劃等多個項目資助。
目錄
前言
部分
第1章 概述2
1.1文本情感分析相關(guān)概念2
1.2文本情感分析方法4
1.2.1基于知識庫的方法4
1.2.2基于機(jī)器學(xué)習(xí)的方法4
1.2.3基于深度學(xué)習(xí)的方法5
1.3情感分析的應(yīng)用5
1.3.1商業(yè)領(lǐng)域5
1.3.2文化領(lǐng)域6
1.3.3社會管理7
1.3.4信息預(yù)測7
1.3.5情緒管理8
1.3.6智能客服8
1.4情感分析面臨的困難9
1.5機(jī)遇和挑戰(zhàn)9
1.6本章小結(jié)10
第2章文本情感分析基礎(chǔ)13
2.1有監(jiān)督學(xué)習(xí)13
2.2無監(jiān)督學(xué)習(xí)13
2.3半監(jiān)督學(xué)習(xí)14
2.4詞向量14
2.4.1詞向量表示的演化過程14
2.4.2詞嵌入方法15
2.5卷積神經(jīng)網(wǎng)絡(luò)18
2.5.1卷積層19
2.5.2激活函數(shù)層20
2.5.3池化層21
2.5.4全連接層22
2.6循環(huán)神經(jīng)網(wǎng)絡(luò)22
2.7記憶網(wǎng)絡(luò)24
2.8預(yù)訓(xùn)練模型25
2.8.1模型結(jié)構(gòu)25
2.8.2預(yù)訓(xùn)練任務(wù)27
2.9本章小結(jié)27
第二部分
第3章基于文本片段不一致性的諷刺
檢測模型32
3.1任務(wù)與術(shù)語32
3.2片段不一致性32
3.3自注意力機(jī)制33
3.4模型框架33
3.4.1總體框架33
3.4.2輸入模塊34
3.4.3卷積模塊34
3.4.4重要性權(quán)重模塊34
3.4.5注意力機(jī)制模塊35
3.4.6輸出模塊35
3.4.7訓(xùn)練目標(biāo)36
3.5實(shí)驗(yàn)設(shè)計和結(jié)果分析36
3.5.1數(shù)據(jù)集介紹36
3.5.2實(shí)驗(yàn)環(huán)境和設(shè)置37
3.5.3基線模型37
3.5.4對比實(shí)驗(yàn)結(jié)果37
3.5.5消融實(shí)驗(yàn)結(jié)果39
3.5.6模型分析39
3.6應(yīng)用實(shí)踐41
3.7本章小結(jié)42
第4章基于常識知識的諷刺檢測
44
4.1任務(wù)與術(shù)語44
4.2常識知識資源44
4.3知識生成方法45
4.4知識選擇方法45
4.5知識融合方法46
4.6模型框架47
4.7實(shí)驗(yàn)設(shè)計和結(jié)果分析47
4.7.1數(shù)據(jù)集介紹47
4.7.2實(shí)驗(yàn)環(huán)境和設(shè)置48
4.7.3基線模型48
4.7.4對比實(shí)驗(yàn)結(jié)果48
4.7.5消融實(shí)驗(yàn)結(jié)果50
4.7.6模型分析50
4.8應(yīng)用實(shí)踐52
4.9本章小結(jié)53
第5章基于多模態(tài)數(shù)據(jù)的諷刺檢測
55
5.1任務(wù)與術(shù)語55
5.2模態(tài)內(nèi)注意力55
5.3模態(tài)間注意力56
5.4模型框架57
5.5實(shí)驗(yàn)設(shè)計和結(jié)果分析57
5.5.1數(shù)據(jù)集介紹57
5.5.2實(shí)驗(yàn)環(huán)境和設(shè)置58
5.5.3基線模型58
5.5.4對比實(shí)驗(yàn)結(jié)果59
5.5.5消融實(shí)驗(yàn)結(jié)果59
5.5.6模型分析60
5.6應(yīng)用實(shí)踐61
5.7本章小結(jié)63
第三部分
第6章基于用戶建模的對話情緒分析
66
6.1任務(wù)與術(shù)語66
6.2層級Transformer和Mask機(jī)制
69
6.3自己-自己關(guān)系建模71
6.4自己-其他關(guān)系建模72
6.5用戶關(guān)系權(quán)重選擇72
6.6模型框架73
6.7應(yīng)用實(shí)踐76
6.7.1常用數(shù)據(jù)集76
6.7.2其他對話用戶關(guān)系建模模型
76
6.7.3實(shí)驗(yàn)結(jié)果77
6.8本章小結(jié)80
第7章基于過去、現(xiàn)在和未來的對話
情緒分析84
7.1任務(wù)與術(shù)語84
7.2常識知識庫85
7.2.1ATOMIC常識知識庫86
7.2.2COMET知識生成模型87
7.2.3COMETATOMIC2020知識生成
模型88
7.3圖神經(jīng)網(wǎng)絡(luò)88
7.4基于知識的情緒預(yù)測92
7.4.1知識增強(qiáng)的Transformer93
7.4.2COSMIC情緒預(yù)測模型94
7.5對話上下文交互圖構(gòu)建95
7.6模型框架97
7.7應(yīng)用實(shí)踐98
7.8本章小結(jié)99
第8章基于平衡特征空間的不平衡
情緒分析102
8.1情緒分析中的不平衡問題102
8.2基于重采樣的平衡策略103
8.3基于重權(quán)重化的平衡策略104
8.3.1類別平衡損失函數(shù)104
8.3.2標(biāo)簽分布感知的間隔損失函數(shù)
106
8.4基于數(shù)據(jù)增強(qiáng)的平衡策略107
8.4.1計算機(jī)視覺中的基于數(shù)據(jù)增強(qiáng)
的平衡策略107
8.4.2自然語言處理中的數(shù)據(jù)增強(qiáng)方法
108
8.5Focal損失函數(shù)108
8.6自我調(diào)整的Dice損失函數(shù)109
8.7中心損失函數(shù)110
8.8三元組中心損失函數(shù)110
8.9馬氏分布中心111
8.10特征空間平衡損失函數(shù)112
8.11應(yīng)用實(shí)踐113
8.11.1代碼實(shí)現(xiàn)113
8.11.2實(shí)驗(yàn)性能115
8.12本章小結(jié)117
第四部分
第9章基于語義-情緒知識的跨目標(biāo)
立場檢測122
9.1任務(wù)描述122
9.2立場檢測基礎(chǔ)模型123
9.3語義知識和情緒知識123
9.4模型框架124
9.5語義-情緒圖建模125
9.6知識增強(qiáng)的BiLSTM網(wǎng)絡(luò)125
9.7立場檢測分類器127
9.8模型應(yīng)用127
9.8.1實(shí)驗(yàn)說明127
9.8.2實(shí)驗(yàn)結(jié)果與分析128
9.9本章小結(jié)129
第10章基于元學(xué)習(xí)的跨領(lǐng)域立場檢測
131
10.1元學(xué)習(xí)概念131
10.2有監(jiān)督元學(xué)習(xí)131
10.2.1基于度量的元學(xué)習(xí)方法131
10.2.2基于模型的元學(xué)習(xí)方法133
10.2.3基于優(yōu)化的元學(xué)習(xí)方法135
10.3MAML算法136
10.4基于元學(xué)習(xí)的立場檢測模型
137
10.5應(yīng)用實(shí)踐138
10.5.1數(shù)據(jù)集介紹138
10.5.2實(shí)驗(yàn)細(xì)節(jié)139
10.5.3對比模型139
10.5.4實(shí)驗(yàn)結(jié)果139
10.5.5核心代碼140
10.6本章小結(jié)142
第11章知識增強(qiáng)的零樣本和小樣本
立場檢測144
11.1任務(wù)與術(shù)語144
11.2概念知識圖145
11.3多關(guān)系圖神經(jīng)網(wǎng)絡(luò)146
11.4基于多關(guān)系圖神經(jīng)網(wǎng)絡(luò)的
知識圖編碼147
11.5知識增強(qiáng)的立場檢測模型
147
11.6應(yīng)用實(shí)踐149
11.6.1實(shí)驗(yàn)設(shè)置149
11.6.2核心代碼149
11.6.3對比方法152
11.6.4實(shí)驗(yàn)結(jié)果與分析152
11.7本章小結(jié)154
第五部分
第12章面向情感分類的對抗攻擊
158
12.1對抗樣本的概念158
12.1.1對抗樣本的提出158
12.1.2對抗樣本的定義159
12.2擾動控制160
12.2.1編輯距離160
12.2.2歐氏距離160
12.2.3余弦距離161
12.2.4Jaccard相似系數(shù)161
12.2.5單詞移動距離161
12.2.6各種指標(biāo)的應(yīng)用161
12.3白盒攻擊與黑盒攻擊162
12.4目標(biāo)攻擊與非目標(biāo)攻擊16