自然語言處理是人工智能的重要方向之一,被譽(yù)為人工智能皇冠上的"明珠”。它融合了語言學(xué)、計算 機(jī)科學(xué)、機(jī)器學(xué)習(xí)等多學(xué)科內(nèi)容。本書主要包含基礎(chǔ)技術(shù)、核心技術(shù)以及模型分析三個部分。基礎(chǔ)技術(shù)部分 主要介紹自然語言處理的基礎(chǔ)任務(wù)和底層技術(shù),包含詞匯分析、句法分析、語義分析、篇章分析和語言模型; 核心技術(shù)部分主要介紹自然語言處理應(yīng)用任務(wù)和相關(guān)技術(shù),主要包括信息抽取、機(jī)器翻譯、情感分析、智能 問答、文本摘要、知識圖譜;模型分析部分主要介紹基于機(jī)器學(xué)習(xí)的自然語言處理模型的穩(wěn)健性和可解釋性 問題。
張奇,復(fù)旦大學(xué)計算科學(xué)技術(shù)學(xué)院教授、博士生導(dǎo)師。主要研究方向是自然語言處理和信息檢索,聚焦自然語言表示、信息抽取、魯棒性和解釋性分析等任務(wù)。兼任中國中文信息學(xué)會理事、中國中文信息學(xué)會信息檢索專委會常務(wù)委員、中國人工智能青年工作委員會常務(wù)委員、SIGIR Beijing Chapter組織委員會委員等。多次擔(dān)任ACL、EMNLP、COLING、全國信息檢索大會等重要國際、國內(nèi)會議的程序委員會主席、領(lǐng)域主席、講習(xí)班主席等。近年來,承擔(dān)了國家重點(diǎn)研發(fā)計劃課題、國家自然科學(xué)基金、上海市科委等多個項(xiàng)目,在國際重要學(xué)術(shù)刊物和會議上發(fā)表論文150余篇,獲得美國授權(quán)專利4項(xiàng),作為第二譯者翻譯專著《現(xiàn)代信息檢索》。獲得WSDM 2014最佳論文提名獎、COLING 2018 領(lǐng)域主席推薦獎、NLPCC 2019杰出論文獎、COLING 2022杰出論文獎。獲得上海市“晨光計劃”人才計劃、復(fù)旦大學(xué)“卓越2025”人才培育計劃等支持,獲得錢偉長中文信息處理科學(xué)技術(shù)一等獎、漢王青年創(chuàng)新一等獎、上海市科技進(jìn)步二等獎、教育部科技進(jìn)步二等獎、ACM 上海新星提名獎、IBM Faculty Award等獎項(xiàng)。桂韜,復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室副研究員、碩士生導(dǎo)師。研究領(lǐng)域?yàn)轭A(yù)訓(xùn)練模型、信息抽取和魯棒模型。在高水平國際學(xué)術(shù)期刊和會議上發(fā)表論文40余篇,主持國家自然科學(xué)基金、計算機(jī)學(xué)會、人工智能學(xué)會的多個基金項(xiàng)目。獲錢偉長中文信息處理科學(xué)技術(shù)獎一等獎(2/5)、中國中文信息學(xué)會優(yōu)秀博士論文獎、COLING 2018 最佳論文提名獎、NLPCC 2019 杰出論文獎,入選第七屆“中國科協(xié)青年人才托舉工程”、上海市啟明星計劃。黃萱菁,復(fù)旦大學(xué)計算機(jī)學(xué)院教授、博士生導(dǎo)師。主要從事人工智能、自然語言處理和信息檢索研究。兼任中國中文信息學(xué)會理事,中國計算機(jī)學(xué)會自然語言處理專委會副主任,中國人工智能學(xué)會女科技工作者委員會副主任,計算語言學(xué)學(xué)會亞太分會副主席,亞太信息檢索學(xué)會指導(dǎo)委員會委員。近年來,承擔(dān)了國家重點(diǎn)研發(fā)計劃課題、國家自然科學(xué)基金等多個項(xiàng)目,在國際重要學(xué)術(shù)刊物和會議上發(fā)表論文150余篇。獲錢偉長中文信息處理科學(xué)技術(shù)獎、上海市育才獎、人工智能全球女性學(xué)者、福布斯中國科技女性等多項(xiàng)榮譽(yù)。
第 1 部分 基礎(chǔ)技術(shù)
第 1 章 緒論 2
1.1 自然語言處理的基本概念 2
1.1.1 自然語言處理簡史 2
1.1.2 自然語言處理的主要研究內(nèi)容 5
1.1.3 自然語言處理的主要難點(diǎn) 7
1.2 自然語言處理的基本范式 10
1.2.1 基于規(guī)則的方法 11
1.2.2 基于機(jī)器學(xué)習(xí)的方法 12
1.2.3 基于深度學(xué)習(xí)的方法 14
1.2.4 基于大模型的方法 15
1.3 本書內(nèi)容安排 16
第 2 章 詞匯分析 18
2.1 語言中的詞匯 18
2.1.1 詞的形態(tài)學(xué) 18
2.1.2 詞的詞性 19
2.2 詞語規(guī)范化 23
2.2.1 詞語切分 23
2.2.2 詞形還原 24
2.2.3 詞干提取 24
2.3 中文分詞 25
2.3.1 中文分詞概述 25
2.3.2 基于最大匹配的中文分詞算法 28
2.3.3 基于線性鏈條件隨機(jī)場的中文分詞算法 29
2.3.4 基于感知器的中文分詞算法 31
2.3.5 基于雙向長短期記憶網(wǎng)絡(luò)的中文分詞算法 34
2.3.6 中文分詞評測方法 36
2.3.7 中文分詞語料庫 37
2.4 詞性標(biāo)注 38
2.4.1 基于規(guī)則的詞性標(biāo)注 39
2.4.2 基于隱馬爾可夫模型的詞性標(biāo)注 40
2.4.3 基于卷積神經(jīng)網(wǎng)絡(luò)的詞性標(biāo)注 42
2.4.4 詞性標(biāo)注評測方法 44
2.4.5 詞性標(biāo)注語料庫 45
2.5 延伸閱讀 46
2.6 習(xí)題 47
第 3 章 句法分析 48
3.1 句法概述 48
3.1.1 成分語法理論概述 49
3.1.2 依存語法理論概述 51
3.2 成分句法分析 53
3.2.1 基于上下文無關(guān)語法的成分句法分析 54
3.2.2 基于概率上下文無關(guān)語法的成分句法分析 59
3.2.3 成分句法分析評測方法 67
3.3 依存句法分析 69
3.3.1 基于圖的依存句法分析 70
3.3.2 基于神經(jīng)網(wǎng)絡(luò)的圖依存句法分析 74
3.3.3 基于轉(zhuǎn)移的依存句法分析 79
3.3.4 基于神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)移依存句法分析 82
3.3.5 依存句法分析評測方法 85
3.4 句法分析語料庫 86
3.5 延伸閱讀 89
3.6 習(xí)題 90
第 4 章 語義分析 91
4.1 語義學(xué)概述 91
4.1.1 詞匯語義學(xué) 92
4.1.2 句子語義學(xué) 96
4.2 語義表示 98
4.2.1 謂詞邏輯表示 99
4.2.2 框架表示 100
4.2.3 語義網(wǎng)絡(luò)表示 102
4.3 分布式表示 103
4.3.1 詞分布式表示 104
4.3.2 句子分布式表示 114
4.3.3 篇章分布式表示 117
4.4 詞義消歧 119
4.4.1 基于目標(biāo)詞上下文的詞義消歧算法 119
4.4.2 基于詞義釋義匹配的詞義消歧算法 122
4.4.3 基于詞義知識增強(qiáng)預(yù)訓(xùn)練的詞義消歧算法 126
4.4.4 詞義消歧評測方法 128
4.4.5 詞義消歧語料庫 128
4.5 語義角色標(biāo)注 132
4.5.1 基于句法樹的語義角色標(biāo)注算法 132
4.5.2 基于深度神經(jīng)網(wǎng)絡(luò)的語義角色標(biāo)注算法 135
4.5.3 語義角色標(biāo)注評測方法 140
4.5.4 語義角色標(biāo)注語料庫和語義角色標(biāo)注評測 140
4.6 延伸閱讀 143
4.7 習(xí)題 144
第 5 章 篇章分析 145
5.1 篇章理論概述 145
5.1.1 篇章的銜接 146
5.1.2 篇章的連貫 148
5.1.3 篇章的結(jié)構(gòu) 149
5.2 話語分割 153
5.2.1 基于詞匯句法樹的統(tǒng)計話語分割算法 154
5.2.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的話語分割算法 155
5.3 篇章結(jié)構(gòu)分析 157
5.3.1 修辭結(jié)構(gòu)篇章分析 157
5.3.2 淺層篇章分析 161
5.4 指代消解 167
5.4.1 基于表述對的指代消解算法 168
5.4.2 基于表述排序的指代消解算法 170
5.4.3 基于實(shí)體的指代消解算法 175
5.5 延伸閱讀 179
5.6 習(xí)題 180
第 6 章 語言模型 181
6.1 語言模型概述 181
6.2 n 元語言模型 182
6.2.1 加法平滑 184
6.2.2 古德-圖靈估計法 184
6.2.3 Katz 平滑 185
6.2.4 平滑方法總結(jié) 187
6.3 神經(jīng)網(wǎng)絡(luò)語言模型 188
6.3.1 前饋神經(jīng)網(wǎng)絡(luò)語言模型 188
6.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型 189
6.4 預(yù)訓(xùn)練語言模型 191
6.4.1 動態(tài)詞向量算法 ELMo 191
6.4.2 生成式預(yù)訓(xùn)練語言模型 GPT 193
6.4.3 掩碼預(yù)訓(xùn)練語言模型 BERT 195
6.4.4 序列到序列的預(yù)訓(xùn)練語言模型 BART 199
6.4.5 預(yù)訓(xùn)練語言模型的應(yīng)用 201
6.5 大規(guī)模語言模型 203
6.5.1 基礎(chǔ)大模型訓(xùn)練 205
6.5.2 指令微調(diào) 207
6.5.3 人類反饋 209
6.6 語言模型評測方法 210
6.7 延伸閱讀 210
6.8 習(xí)題 212
第 2 部分 核心技術(shù)
第 7 章 信息抽取 214
7.1 信息抽取概述 214
7.2 命名實(shí)體識別 216
7.2.1 非嵌套命名實(shí)體識別 217
7.2.2 嵌套命名實(shí)體識別 225
7.2.3 多規(guī)范命名實(shí)體識別 230
7.2.4 命名實(shí)體識別評測方法 233
7.2.5 命名實(shí)體識別語料庫 233
7.3 關(guān)系抽取 235
7.3.1 有監(jiān)督關(guān)系抽取 236
7.3.2 遠(yuǎn)程監(jiān)督關(guān)系抽取 240
7.3.3 開放關(guān)系抽取 245
7.3.4 關(guān)系抽取評測方法 249
7.3.5 關(guān)系抽取語料庫 250
7.4 事件抽取 251
7.4.1 限定域事件抽取 251
7.4.2 開放域事件抽取 255
7.4.3 事件抽取評測方法 260
7.4.4 事件抽取語料庫 260
7.5 延伸閱讀 261
7.6 習(xí)題 262
第 8 章 機(jī)器翻譯.263
8.1 機(jī)器翻譯概述 263
8.1.1 機(jī)器翻譯的發(fā)展歷程 264
8.1.2 機(jī)器翻譯的現(xiàn)狀與挑戰(zhàn) 265
8.2 基于統(tǒng)計的機(jī)器翻譯方法 266
8.2.1 任務(wù)定義與基本問題 266
8.2.2 IBM 模型Ⅰ 270
8.2.3 IBM 模型Ⅱ 274
8.2.4 IBM 模型Ⅲ 275
8.2.5 IBM 模型Ⅳ 276
8.2.6 IBM 模型Ⅴ 277
8.3 基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法 278
8.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)翻譯模型 279
8.3.2 卷積神經(jīng)網(wǎng)絡(luò)翻譯模型 281
8.3.3 自注意力神經(jīng)網(wǎng)絡(luò)翻譯模型 284
8.4 機(jī)器翻譯語料庫 288
8.5 延伸閱讀 290
8.6 習(xí)題 291
第 9 章 情感分析 292
9.1 情感分析概述 292
9.1.1 情感模型 293
9.1.2 情感分析的主要任務(wù) 297
9.2 篇章級情感分析 300
9.2.1 基于支持向量機(jī)的篇章級情感分析 301
9.2.2 基于層次結(jié)構(gòu)的篇章級情感分析 303
9.2.3 篇章級情感分析語料庫 305
9.3 句子級情感分析 307
9.3.1 基于詞典的句子級情感分析 308
9.3.2 基于遞歸神經(jīng)張量網(wǎng)絡(luò)的句子級情感分析 309
9.3.3 基于情感知識增強(qiáng)預(yù)訓(xùn)練的句子級情感分析 310
9.3.4 句子級情感分析語料庫 312
9.4 屬性級情感分析 313
9.4.1 情感信息抽取 313
9.4.2 屬性級情感分類 319
9.4.3 屬性級情感分析語料庫 329
9.5 延伸閱讀 331
9.6 習(xí)題 331
第 10 章 智能問答 332
10.1 智能問答概述 332
10.1.1 智能問答的發(fā)展歷程 333
10.1.2 智能問答的主要類型 334
10.2 閱讀理解 336
10.2.1 基于特征的閱讀理解算法 337
10.2.2 基于深度神經(jīng)網(wǎng)絡(luò)的閱讀理解算法 340
10.2.3 閱讀理解語料庫 346
10.3 表格問答 347
10.3.1 基于特征的表格問答方法 348
10.3.2 基于深度學(xué)習(xí)的表格問答模型 349
10.3.3 表格問答語料庫 350
10.4 社區(qū)問答 351
10.4.1 基于特征的語義匹配算法 352
10.4.2 基于深度學(xué)習(xí)的語義匹配算法 353
10.4.3 社區(qū)問答語料庫 356
10.5 開放領(lǐng)域問答 357
10.5.1 基于檢索-閱讀理解架構(gòu)的開放領(lǐng)域問答模型 358
10.5.2 基于端到端架構(gòu)的開放領(lǐng)域問答模型 360
10.5.3 開放領(lǐng)域問答語料庫 362
10.6 延伸閱讀 363
10.7 習(xí)題 364
第 11 章 文本摘要 365
11.1 文本摘要概述 365
11.1.1 文本摘要的發(fā)展歷程 365
11.1.2 文本摘要的主要任務(wù) 367
11.2 抽取式文本摘要 368
11.2.1 基于排序的方法 368
11.2.2 基于序列標(biāo)注的方法 373
11.3 生成式文本摘要 377
11.3.1 序列到序列生成式文本摘要 378
11.3.2 抽取與生成結(jié)合式文本摘要 384
11.4 文本摘要評測 388
11.4.1 人工評測 389
11.4.2 自動評測 390
11.5 文本摘要語料庫 393
11.5.1 單文檔摘要語料庫 393
11.5.2 多文檔摘要語料庫 393
11.5.3 對話摘要語料庫 393
11.5.4 多模態(tài)文本摘要語料庫 394
11.5.5 跨語言文本摘要語料庫 394
11.6 延伸閱讀 394
11.7 習(xí)題 395
第 12 章 知識圖譜 396
12.1 知識圖譜概述 396
12.1.1 知識圖譜的發(fā)展歷程 398
12.1.2 知識圖譜的研究內(nèi)容 399
12.2 知識圖譜的表示與存儲 400
12.2.1 知識圖譜的符號表示 401
12.2.2 知識圖譜的向量表示 404
12.2.3 基于表的知識圖譜存儲 407
12.2.4 基于圖的知識圖譜存儲 410
12.3 知識圖譜的獲取與構(gòu)建 413
12.3.1 屬性補(bǔ)全 415
12.3.2 實(shí)體鏈接 417
12.3.3 實(shí)體對齊 421
12.4 知識圖譜推理 426
12.4.1 基于符號邏輯的知識圖譜推理 427
12.4.2 基于表示學(xué)習(xí)的知識圖譜推理 430
12.5 知識圖譜問答 434
12.5.1 基于語義解析的知識圖譜問答 435
12.5.2 基于信息檢索的知識圖譜問答 437
12.5.3 基于深度學(xué)習(xí)的知識圖譜問答 441
12.5.4 知識圖譜問答語料庫 445
12.6 延伸閱讀 446
12.7 習(xí)題 447
第 3 部分 模型分析
第 13 章 模型穩(wěn)健性 449
13.1 穩(wěn)健性概述 449
13.1.1 穩(wěn)健性的基本概念 450
13.1.2 穩(wěn)健性的主要研究內(nèi)容 451
13.2 數(shù)據(jù)偏差消除 452
13.3 文本對抗攻擊方法 454
13.3.1 字符級別的攻擊方法 455
13.3.2 詞級別的攻擊方法 456
13.3.3 句子級別的攻擊方法 458
13.3.4 后門攻擊 459
13.4 文本對抗防御方法 463
13.4.1 基于對抗訓(xùn)練的文本對抗防御方法 463
13.4.2 基于表示壓縮的文本對抗防御方法 465
13.4.3 基于數(shù)據(jù)增強(qiáng)的文本對抗防御方法 466
13.4.4 對抗樣本檢測 468
13.5 模型穩(wěn)健性評測基準(zhǔn) 469
13.5.1 特定任務(wù)穩(wěn)健性評測基準(zhǔn) 469
13.5.2 模型穩(wěn)健性通用評測基準(zhǔn) 472
13.6 延伸閱讀 477
13.7 習(xí)題 478
第 14 章 模型可解釋性 479
14.1 可解釋性概述 479
14.1.1 可解釋性的分類 480
14.1.2 解釋方法評估 481
14.2 解釋性分析方法 483
14.2.1 局部分析方法 483
14.2.2 全局分析方法 489
14.3 自然語言處理算法的解釋性分析方法 492
14.3.1 模型解釋性分析方法 492
14.3.2 數(shù)據(jù)解釋性分析方法 496
14.3.3 可解釋評估 498
14.4 延伸閱讀 500
14.5 習(xí)題 500
參考文獻(xiàn) 501
索引 564