本書源于阿里巴巴千億級知識圖譜構(gòu)建與產(chǎn)業(yè)化應(yīng)用的工作總結(jié),對知識圖譜理論和大規(guī)模工業(yè)實踐進行了全面和深入的闡述。本書以阿里巴巴的實戰(zhàn)經(jīng)驗為中心,以深厚的理論成果為支撐,詳細闡述了知識圖譜的方方面面。首先介紹工業(yè)場景下知識圖譜的現(xiàn)狀、存在的問題和架構(gòu)設(shè)計;然后從知識表示、知識融合、知識獲取、知識推理、知識存儲和知識圖譜前沿方向等方面入手,介紹大規(guī)模商品知識圖譜的構(gòu)建方法;最后結(jié)合阿里巴巴的業(yè)務(wù)實踐,詳細介紹知識圖譜的產(chǎn)品設(shè)計、技術(shù)實現(xiàn)和業(yè)務(wù)應(yīng)用細節(jié)。通過閱讀本書,讀者不僅可以從零開始認識知識圖譜,了解知識圖譜技術(shù)方法和前沿技術(shù)方向,而且可以熟悉知識圖譜工業(yè)實踐的實現(xiàn)路徑,清楚知識圖譜的應(yīng)用方向和方法。本書介紹的成果獲得錢偉長中文信息處理科學技術(shù)一等獎。本書在知識圖譜的廣度和深度上兼具極強的參考性,適合人工智能相關(guān)行業(yè)的管理者和研發(fā)人員、高等院校的計算機專業(yè)學生閱讀。
張 偉博士畢業(yè)于新加坡國立大學。研究方向為知識圖譜(KG)、自然語言處理(NLP)等。曾任阿里巴巴資深算法專家、新加坡資訊通信研究院NLP應(yīng)用實驗室主任等職位。曾擔任NLP會議ACL領(lǐng)域主席,期刊TACL常駐審稿人。兼職復(fù)旦大學、蘇州大學碩士生校外導師。主導了阿里巴巴商品知識圖譜的建設(shè)。論文發(fā)表在WWW/EMNLP/AAAI/IJCAI/AIJ/CoLing/ICDE/WSDM/IJCNLP/NAACL/CIKM等國際會議和期刊上。獲得了錢偉長中文信息處理科學技術(shù)一等獎,杭州市省級領(lǐng)軍人才等榮譽。陳華鈞浙江大學計算機科學與技術(shù)學院教授/博導,主要研究方向為知識圖譜、大數(shù)據(jù)系統(tǒng)、自然語言處理等。在WWW/IJCAI/AAAI/KR/ACL/EMNLP/KDD/VLDB/ICDE/TKDE/ACM MM/Briefings in Bioinforamtics等國際會議或期刊上發(fā)表多篇論文。曾獲國際語義網(wǎng)會議ISWC2006最佳論文獎、教育部技術(shù)發(fā)明一等獎、錢偉長中文信息處理科技獎一等獎、阿里巴巴優(yōu)秀學術(shù)合作獎、中國工信傳媒出版集團優(yōu)秀出版物一等獎等獎勵。牽頭發(fā)起中文開放知識圖譜OpenKG,中國人工智能學會知識工程專業(yè)委員會副主任、中國中文信息學會語言與知識計算專委會副主任,全國知識圖譜大會CCKS2020大會主席,Elsevier Big Data Research Journal Editor in Chief。張亦弛畢業(yè)于倫敦大學。工作研究方向為電商領(lǐng)域知識圖譜構(gòu)建、自然語言處理和多模態(tài)技術(shù)在知識圖譜的應(yīng)用等。曾任阿里巴巴商品知識圖譜算法負責人。在阿里巴巴知識圖譜藏經(jīng)閣研究計劃中,聯(lián)合團隊與清華大學、浙江大學、中科院軟件所、中科院自動化所和蘇州大學等科研機構(gòu)協(xié)作,構(gòu)建了千億級商品知識圖譜數(shù)據(jù),服務(wù)了阿里十多個垂直電商平臺和海內(nèi)外多個國家市場。學術(shù)論文發(fā)表在BMVC/EMNLP/WSDM等國內(nèi)外會議和期刊中。團隊多次榮獲中國國家編碼中心和中國ECR委員會頒發(fā)的創(chuàng)新項目獎、卓越項目獎,中國中文信息學會錢偉長科技獎一等獎等國家機構(gòu)和學術(shù)協(xié)會獎項。
目 錄
第1章 工業(yè)級知識圖譜概述 / 1
1.1 知識圖譜概述 / 2
1.1.1 通用知識圖譜 / 2
1.1.2 行業(yè)知識圖譜 / 3
1.2 工業(yè)級知識圖譜實戰(zhàn)原則 / 4
1.2.1 實踐中的典型問題 / 4
1.2.2 實戰(zhàn)原則 / 4
1.3 阿里巴巴知識引擎技術(shù)架構(gòu) / 8
1.3.1 平臺產(chǎn)品:知識建模與管理 / 9
1.3.2 平臺產(chǎn)品:知識生產(chǎn) / 11
1.3.3 業(yè)務(wù)、平臺產(chǎn)品:知識服務(wù) / 16
1.4 本章小結(jié) / 19
第2章 商品知識的表示和建模 / 20
2.1 知識表示簡介 / 21
2.1.1 基于符號邏輯的知識表示方法 / 21
2.1.2 面向互聯(lián)網(wǎng)的知識表示方法 / 23
2.1.3 基于連續(xù)向量的知識表示 / 25
2.2 行業(yè)知識建模 / 27
2.2.1 基于專家的知識建模 / 27
2.2.2 基于機器學習的知識建模 / 29
2.3 商品知識建模實踐 / 32
2.3.1 術(shù)語抽取 / 33
2.3.2 商品概念及上下位關(guān)系生成 / 36
2.4 構(gòu)建商品知識體系 / 37
2.4.1 通用域知識圖譜 / 37
2.4.2 阿里商品域知識體系 / 39
2.5 商品知識建模應(yīng)用場景 / 48
2.5.1 服務(wù)國家和社會機構(gòu)應(yīng)用 / 48
2.5.2 零售業(yè)務(wù)應(yīng)用 / 49
2.6 小結(jié) / 50
2.6.1 知識建模技術(shù)的未來發(fā)展 / 50
2.6.2 知識體系設(shè)計的未來發(fā)展 / 51
第3章 商品知識融合 / 53
3.1 知識融合概述 / 54
3.1.1 知識融合的主要難點 / 54
3.1.2 知識融合的基本步驟 / 55
3.2 本體對齊 / 57
3.2.1 基于語言學特征的方法 / 58
3.2.2 基于結(jié)構(gòu)特征的方法 / 61
3.2.3 商品知識圖譜本體對齊算法 / 63
3.3 實體對齊 / 70
3.3.1 實體對齊的流程 / 70
3.3.2 實體對齊的技術(shù)路線 / 71
3.3.3 商品知識圖譜實體對齊實踐 / 80
3.4 信息融合 / 91
3.4.1 無監(jiān)督的信息融合方法 / 92
3.4.2 有監(jiān)督和半監(jiān)督的信息融合方法 / 99
3.4.3 商品知識圖譜信息融合算法實踐 / 100
3.5 跨語言知識融合 / 103
3.5.1 跨語言知識融合的挑戰(zhàn) / 103
3.5.2 跨語言實體對齊的技術(shù)路線 / 104
3.5.3 基于規(guī)則的跨語言實體對齊方法 / 104
3.5.4 基于翻譯的跨語言實體對齊方法 / 105
3.5.5 基于表示學習的跨語言實體對齊方法 / 107
3.6 知識融合質(zhì)量評估體系 / 110
3.6.1 知識融合評估指標介紹 / 110
3.6.2 離線融合效果評估 / 112
3.6.3 在線融合效果評估 / 117
3.7 本章小結(jié) / 119
第4章 商品知識獲取 / 120
4.1 知識獲取概述 / 121
4.1.1 知識獲取相關(guān)任務(wù) / 121
4.1.2 知識獲取相關(guān)測評會議 / 123
4.2 命名實體識別 / 125
4.2.1 命名實體識別概覽 / 125
4.2.2 標注體系及常用數(shù)據(jù)集 / 126
4.2.3 基于規(guī)則的命名實體識別 / 128
4.2.4 基于統(tǒng)計模型的命名實體識別 / 128
4.2.5 基于神經(jīng)網(wǎng)絡(luò)的實體識別 / 130
4.3 實體鏈接 / 133
4.3.1 實體鏈接概述 / 133
4.3.2 候選實體生成 / 133
4.3.3 候選實體排序 / 135
4.3.4 端到端的實體鏈接方法 / 138
4.4 關(guān)系抽取 / 139
4.4.1 關(guān)系抽取概述 / 139
4.4.2 基于模板的關(guān)系抽取方法 / 140
4.4.3 基于監(jiān)督學習的關(guān)系抽取方法 / 140
4.4.4 基于半監(jiān)督學習的關(guān)系抽取方法 / 149
4.4.5 基于無監(jiān)督學習的關(guān)系抽取方法 / 154
4.5 槽填充與屬性補全 / 156
4.5.1 槽填充與屬性補全概述 / 156
4.5.2 基于模板的方法 / 158
4.5.3 基于關(guān)系分類的方法 / 160
4.6 面向半結(jié)構(gòu)化數(shù)據(jù)的知識獲取 / 160
4.6.1 百科類網(wǎng)站數(shù)據(jù)抽取 / 160
4.6.2 面向Web網(wǎng)頁的知識獲取 / 161
4.7 低資源條件下知識獲取 / 162
4.7.1 基于監(jiān)督學習和弱監(jiān)督學習的方法 / 163
4.7.2 基于遷移學習的方法 / 163
4.7.3 基于元學習的方法 / 164
4.7.4 基于知識增強的方法 / 165
4.8 電商領(lǐng)域知識獲取實踐 / 166
4.8.1 電商知識獲取框架 / 166
4.8.2 面向場景導購的知識獲取示例 / 169
4.8.3 低資源商品知識獲取示例 / 177
4.9 本章小結(jié) / 180
第5章 商品知識推理 / 182
5.1 知識推理概述 / 183
5.1.1 知識推理的作用 / 183
5.1.2 專家系統(tǒng)與知識推理 / 184
5.1.3 神經(jīng)網(wǎng)絡(luò)與知識推理 / 185
5.2 基于符號邏輯的知識推理 / 186
5.2.1 基于本體的知識推理方法 / 187
5.2.2 基于規(guī)則的知識推理方法 / 191
5.2.3 基于規(guī)則學習的知識圖譜推理 / 197
5.3 基于表示學習的知識推理 / 200
5.3.1 基于分布式表示的知識推理 / 200
5.3.2 基于神經(jīng)網(wǎng)絡(luò)的知識推理 / 210
5.4 基于圖數(shù)據(jù)庫的商品知識推理引擎工程實踐 / 218
5.4.1 技術(shù)框架簡介 / 219
5.4.2 與傳統(tǒng)規(guī)則推理引擎的對比 / 223
5.5 可解釋的商品知識圖譜推理應(yīng)用實踐 / 226
5.5.1 電商應(yīng)用背景 / 226
5.5.2 技術(shù)實踐方案 / 228
5.5.3 實驗結(jié)果及案例分析 / 233
5.6 基于強化學習的商品規(guī)則學習與推理應(yīng)用實踐 / 236
5.6.1 電商應(yīng)用背景 / 236
5.6.2 技術(shù)實踐方案 / 238
5.6.3 實驗結(jié)果及案例分析 / 240
5.7 本章小結(jié) / 241
第6章 知識圖譜的存儲、服務(wù)與質(zhì)量 / 243
6.1 知識圖譜的存儲 / 244
6.1.1 數(shù)據(jù)模型 / 244
6.1.2 存儲系統(tǒng)選型 / 247
6.1.3 圖查詢語言 / 252
6.1.4 關(guān)鍵技術(shù)與選擇 / 254
6.2 知識圖譜的服務(wù) / 257
6.2.1 基于知識圖譜的搜索 / 258
6.2.2 基于知識圖譜的推薦 / 264
6.2.3 搜索推薦在業(yè)務(wù)智能中的應(yīng)用 / 274
6.2.4 基于知識圖譜的問答系統(tǒng) / 278
6.3 知識圖譜質(zhì)量保障 / 281
6.3.1 質(zhì)量保障架構(gòu) / 281
6.3.2 測試原則與方法 / 282
6.4 本章小結(jié) / 284
第7章 大規(guī)模商品知識圖譜
預(yù)訓練 / 285
7.1 知識預(yù)訓練概述 / 286
7.1.1 預(yù)訓練語言模型 / 286
7.1.2 知識圖譜中的結(jié)構(gòu)化上下文信息 / 288
7.1.3 基于知識增強的預(yù)訓練模型 / 289
7.1.4 預(yù)訓練知識圖譜模型與預(yù)訓練語言模型的區(qū)別 / 293
7.2 商品知識圖譜靜態(tài)預(yù)訓練模型 / 294
7.2.1 預(yù)訓練知識圖譜查詢框架 / 294
7.2.2 預(yù)訓練知識圖譜查詢模塊 / 295
7.2.3 預(yù)訓練知識圖譜查詢服務(wù) / 296
7.2.4 在任務(wù)模塊中使用查詢服務(wù) / 297
7.3 商品知識圖譜動態(tài)預(yù)訓練模型 / 299
7.3.1 上下文模塊和整合模塊 / 299
7.3.2 預(yù)訓練階段和微調(diào)階段 / 301
7.4 商品知識圖譜預(yù)訓練實踐案例 / 303
7.4.1 基于知識圖譜預(yù)訓練的商品分類 / 304
7.4.2 基于知識圖譜預(yù)訓練的商品對齊 / 309
7.4.3 基于知識圖譜預(yù)訓練的商品推薦 / 312
7.4.4 基于商品知識預(yù)訓練的實體識別 / 316
7.4.5 基于商品知識預(yù)訓練的關(guān)系抽取與屬性補齊 / 318
7.4.6 基于商品知識預(yù)訓練的標題生成 / 324
7.5 總結(jié)與展望 / 325
參考文獻 / 326