金融科技大數(shù)據(jù)風控方法介紹: 解釋性、隱私保護與數(shù)據(jù)安全
本書是在大數(shù)據(jù)框架下,全面介紹金融科技在處理真實場景金融問題時需要掌握的最重要的幾類機器學習方法,并將重點放在實施過程中需要用到的特征提取、可解釋性、隱私保護與數(shù)據(jù)安全共享等相關(guān)內(nèi)容的討論上。
本書內(nèi)容分三部分:第一部分由1~6章組成,主要講常規(guī)情況下,機器學習在金融場景特別是大數(shù)據(jù)風控中的建模應(yīng)用;第二部分由第7章和第8章組成,主要講在數(shù)據(jù)隱私保護和安全要求下,機器學習如何進行大數(shù)據(jù)風控建模;第三部分由9~16章組成,主要講如何基于吉布斯抽樣算法建立特征提取的理論
和標準框架及其在包含投資和融資等7個不同金融場景中的應(yīng)用。
本書具有五個特點:一是面向應(yīng)用需求,介紹機器學習在金融場景特別是大數(shù)據(jù)風控中的建模應(yīng)用;二是緊扣應(yīng)用,聚焦智能投顧和大數(shù)據(jù)信用評價兩大領(lǐng)域;三是針對算法,重點講邏輯回歸和集成學習建模;四是針對數(shù)據(jù)安全和隱私保護問題,建立密文機器學習模型,實現(xiàn)數(shù)據(jù)共享;五是針對特征工程,基于吉布斯抽樣算法,建立支持非線性特征提取的理論和標準框架。
更多科學出版社服務(wù),請掃碼獲取。
目錄
序一
序二
前言
緒論 1
第一部分 機器學習及金融應(yīng)用
第1章 機器學習與金融科技應(yīng)用介紹 11
1.1 人工智能介紹.11
1.2 機器學習簡介.13
1.2.1 什么是機器學習 13
1.2.2 機器學習建模簡介 15
1.2.3 本節(jié)小結(jié) 17
1.3 機器學習大數(shù)據(jù)智能風控應(yīng)用介紹 17
1.3.1 人工智能在金融機構(gòu)風險管理中的應(yīng)用 18
1.3.2 深度學習算法將會被廣泛采用.19
1.3.3 大數(shù)據(jù)框架下的多種形態(tài)數(shù)據(jù)將會被廣泛應(yīng)用 21
1.3.4 基于網(wǎng)絡(luò)的知識圖譜(全息畫像)形成落地解決方案 21
1.3.5 聯(lián)邦學習方法將會大規(guī)模落地使用 22
1.3.6 人工智能方法在大數(shù)據(jù)風控面臨的挑戰(zhàn) 22
1.4 本章小結(jié) 27
練習題 28
第2章 邏輯回歸 29
2.1 邏輯回歸原理 29
2.1.1 邏輯回歸簡介 29
2.1.2 分類原理 30
2.1.3 示例 33
2.2 基于最優(yōu)化方法的最佳回歸系數(shù)確定 33
2.2.1 最優(yōu)化問題 33
2.2.2 梯度下降法求解 34
2.2.3 模型的擬合優(yōu)度評估 35
2.3 模型評估 36
2.4 多分類問題 48
2.4.1 多次邏輯回歸 48
2.4.2 對邏輯回歸模型進行擴展 49
2.5 邏輯回歸評分卡 49
2.6 場景應(yīng)用 51
2.6.1 數(shù)據(jù)描述 52
2.6.2 模型建立與評估 52
2.6.3 評分卡生成 54
2.7 本章小結(jié) 58
練習題 59
第3章 決策樹 60
3.1 決策樹模型的原理 60
3.2 特征選擇 61
3.2.1 ID3 算法 62
3.2.2 C4.5 算法 63
3.2.3 CART 算法 64
3.2.4 不同決策樹算法的比較 65
3.3 示例 65
3.4 過擬合與剪枝 70
3.4.1 預(yù)剪枝 70
3.4.2 后剪枝 71
3.5 場景應(yīng)用 73
3.5.1 數(shù)據(jù)描述 73
3.5.2 模型建立與評估 73
3.6 本章小結(jié) 73
練習題 74
第4章 集成學習算法 75
4.1 隨機森林 76
4.1.1 隨機森林算法簡介 76
4.1.2 場景應(yīng)用 77
4.2 GBDT算法 78
4.2.1 GBDT算法簡介 78
4.2.2 GBDT算法流程 79
4.2.3 GBDT示例 82
4.2.4 Shrinkage策略 .88
4.2.5 場景應(yīng)用 88
4.3 XGBoost算法 89
4.3.1 XGBoost算法簡介 89
4.3.2 XGBoost分類算法 90
4.3.3 XGBoost回歸算法 100
4.3.4 XGBoost示例 100
4.3.5 場景應(yīng)用 132
4.4 本章小結(jié) 133
練習題 133
第5章 機器學習模型的可解釋性方法 135
5.1 可解釋性理論 135
5.1.1 可解釋性的重要性 135
5.1.2 可解釋性的分類 136
5.1.3 解釋的性質(zhì) 136
5.2 可解釋性方法 136
5.3 SHAP解釋法 137
5.4 LIME解釋法143
5.4.1 LIME算法特點 144
5.4.2 LIME實現(xiàn)步驟 144
5.4.3 LIME算法原理 144
5.5 SHAP與LIME解釋法的對比 145
5.6 本章小結(jié) 147
練習題 147
第6章 大數(shù)據(jù)風控機器學習建模 148
6.1 標簽設(shè)計 149
6.1.1 Vintage賬齡分析 149
6.1.2 滾動率分析 151
6.1.3 好/壞/不確定定義 152
6.2 數(shù)據(jù)清洗 152
6.2.1 缺失值處理 152
6.2.2 同值化處理 153
6.2.3 標準化處理 153
6.3 特征工程概述 154
6.3.1 特征變量分箱 154
6.3.2 變量WOE轉(zhuǎn)換 .155
6.3.3 IV值預(yù)測能力分析 155
6.3.4 相關(guān)性和關(guān)聯(lián)性分析 156
6.3.5 VIF方差膨脹因子分析 158
6.4 模型訓(xùn)練與評估 159
6.4.1 模型建立 159
6.4.2 參數(shù)優(yōu)化 159
6.5 模型驗證 159
6.5.1 模型穩(wěn)定性 159
6.5.2 模型區(qū)分能力 160
6.6 實證研究 162
6.6.1 數(shù)據(jù)來源與處理 162
6.6.2 特征工程 167
6.6.3 模型訓(xùn)練與評估 182
6.6.4 模型預(yù)測結(jié)果的解釋 186
6.6.5 可解釋性結(jié)果與樣本真實分布的對比 199
6.7 本章小結(jié) 201
練習題 201
第二部分 隱私保護和數(shù)據(jù)安全背景下的機器學習及金融應(yīng)用
第7章 同態(tài)加密機器學習建模 205
7.1 同態(tài)加密簡介 205
7.1.1 幾種主流全同態(tài)加密方案對比 206
7.1.2 CKKS加密方案應(yīng)用 207目
7.2 密文邏輯回歸模型構(gòu)建 208
7.2.1 雙方介紹 208
7.2.2 密文邏輯回歸的建模過程 208
7.2.3 密文邏輯回歸的預(yù)測過程 210
7.3 密文評分卡模型構(gòu)建 211
7.3.1 研究目的 212
7.3.2 數(shù)據(jù)要求 212
7.3.3 必備文件和源代碼 213
7.4 密文評分卡建模流程 214
7.4.1 雙方介紹 214
7.4.2 模擬數(shù)據(jù) 215
7.4.3 密文評分卡自動化建模流程 215
7.5 本章小結(jié) 217
附錄I 代碼流程操作詳解 217
練習題 227
第8章 聯(lián)邦學習建模 228
8.1 聯(lián)邦學習適用的場景 228
8.2 聯(lián)邦學習的分類 228
8.3 聯(lián)邦學習框架下的機器學習算法 230
8.3.1 縱向安全聯(lián)邦邏輯回歸 230
8.3.2 Secureboost 232
8.4 聯(lián)邦學習實證 234
8.4.1 Secureboost示例 .234
8.4.2 場景應(yīng)用 249
8.5 本章小結(jié) 253
練習題 254
第三部分 吉布斯抽樣算法的特征提取及場景應(yīng)用
第9章 吉布斯抽樣方法和特征提取框架介紹 257
9.1 吉布斯抽樣方法可以解決什么問題 257
9.2 邏輯回歸模型框架下的關(guān)聯(lián)特征的提取方法 259
9.3 實現(xiàn)吉布斯抽樣特征提取的算法框架 261
9.4 集成學習模型框架下的關(guān)聯(lián)特征提取步驟 263
9.5 本章小結(jié) 263
附錄 II 支持關(guān)聯(lián)特征提取的比值比指標介紹 264
練習題 265
第10章 篩選刻畫FOF關(guān)聯(lián)風險特征指標 266
10.1 基金自身關(guān)聯(lián)風險因素介紹 267
10.2 影響基金的其他相關(guān)因素 268
10.3 篩選FOF關(guān)聯(lián)特征的隨機搜索算法框架建立 269
10.3.1 金融產(chǎn)品(基金)業(yè)績相關(guān)特征提取的基本思路 269
10.3.2 非結(jié)構(gòu)性數(shù)據(jù)特征提取推斷算法框架 270
10.3.3 核心特征的提取與篩選 275
10.4 基于ROC曲線的AUC測試的特征表現(xiàn) 277
10.5 本章小結(jié) 283
練習題 283
第11章 篩選影響大宗商品價格變化的特征指標 285
11.1 大宗商品價格因素相關(guān)背景介紹 286
11.2 期貨銅特征因子分析 288
11.2.1 大宗商品期貨銅價格數(shù)據(jù)介紹 288
11.2.2 預(yù)測大宗商品期貨銅價格變化趨勢的關(guān)聯(lián)特征因子 289
11.2.3 預(yù)測刻畫影響銅價格變化的特征因子 290
11.3 本章小結(jié) 293
附錄 III 支持特征提取的初始關(guān)聯(lián)特征因子表 293
練習題 297
第12章 篩選影響螺紋鋼期貨價格變化的關(guān)聯(lián)特征 298
12.1 螺紋鋼背景綜述 298
12.1.1 背景 298
12.1.2 影響螺紋鋼價格因素研究現(xiàn)狀簡述 299
12.2 影響螺紋鋼期貨價格的因素分析 300
12.2.1 螺紋鋼期貨價格影響因素分析 300
12.2.2 構(gòu)建初始特征池 301
12.2.3 影響螺紋鋼期貨價格的風險特征提取與分析方法 304
12.2.4 刻畫螺紋鋼期貨價格變化實證分析 306
12.3 本章小結(jié) 312
練習題 313
第13章 篩選影響公司財務(wù)欺詐行為的關(guān)聯(lián)特征 315
13.1 公司財務(wù)欺詐行為背景介紹 315
13.2 公司財務(wù)欺詐行為的特征指標 318
13.2.1 上市公司財務(wù)欺詐風險特征介紹 318
13.2.2 特征提取方法簡介 319
13.3 建立全面刻畫公司財務(wù)欺詐的預(yù)警體系 320
13.3.1 案例分析 321
13.3.2 公司監(jiān)事關(guān)聯(lián)性 322
13.3.3 建立有效預(yù)測財務(wù)欺詐框架 323
13.4 本章小結(jié) 324
練習題 324
第14章 針對上市公司財務(wù)欺詐行為的評估.326
14.1 基于舞弊三角理論的咖啡館財務(wù)質(zhì)量評估 327
14.1.1 財務(wù)舞弊與財務(wù)欺詐 327
14.1.2 舞弊三角理論 327
14.2 常見舞弊類型討論 329
14.3 咖啡館財務(wù)質(zhì)量評估方法 330
14.3.1 基本思想陳述 330
14.3.2 核心指標 331
14.4 針對上市公司財務(wù)舞弊案例分析 332
14.4.1 壓力與動機 332
14.4.2 機會與漏洞 333
14.4.3 態(tài)度與借口 334
14.4.4 結(jié)論和針對欺詐行為的特征刻畫討論 335
14.5 本章小結(jié) 336
練習題 337
第15章 篩選影響個人信用貸款的關(guān)聯(lián)特征 338
15.1 背景 338
15.2 數(shù)據(jù)來源 339
15.3 算法選。篨GBoost與吉布斯算法的異同表現(xiàn) 339
15.4 篩選的數(shù)據(jù)結(jié)果與討論 340
15.5 本章小結(jié) 345
練習題 345
第16章 建立刻畫鄉(xiāng)村農(nóng)戶貧困狀態(tài)特征因子的篩選框架 346
16.1 背景 346
16.2 特征指標篩選與分析流程框架建立思路 349
16.2.1 基礎(chǔ)指標池的構(gòu)建 349
16.2.2 建立特征指標篩選框架的基本思路 350
16.2.3 針對特征指標的建模分析與甄別能力的有效性測試 350
16.3 支持特征提取的數(shù)據(jù)源樣本描述 351
16.3.1 提取刻畫鄉(xiāng)村農(nóng)戶貧困狀態(tài)特征的框架和分析 352
16.3.2 刻畫農(nóng)戶貧困狀態(tài)的特征指標的篩選結(jié)果 .356
16.3.3 刻畫農(nóng)戶貧困狀態(tài)特征指標甄別的有效性測試 357
16.4 結(jié)論的簡要解讀和討論建議 359
16.5 本章小結(jié) 361
附錄IV 描述農(nóng)戶貧困狀態(tài)特征指標的基本定義和解釋 362
練習題 363
參考文獻 365
附錄 A 基于Python語言對幾種典型算法的基本功能代碼實現(xiàn) 376
A.1 線性回歸模型簡介 376
A.2 線性分類模型簡介 382
A.3 決策樹模型簡介 393
A.4 集成模型簡介 404
A.4.1 引導(dǎo)聚集 404
A.4.2 梯度提升 408
A.4.3 LightGBM的超參數(shù)調(diào)整 409
A.4.4 集成模型用于分類 411
A.4.5 總結(jié) 412
A.5 神經(jīng)網(wǎng)絡(luò)模型簡介 412
A.5.1 數(shù)據(jù)讀取 413
A.5.2 多分類邏輯回歸 416
A.5.3 分類模型的衡量 417
A.5.4 擬合不足與過擬合 419
A.6 深度學習介紹 433
A.6.1 近期人工智能熱潮的關(guān)鍵推動力 433
A.6.2 金融服務(wù): 工具賦能到知識賦能 435
A.6.3 基于深度學習的知識服務(wù) 435