增強(qiáng)型分析是數(shù)據(jù)科學(xué)的未來,本書講解了如何通過前沿的大數(shù)據(jù)技術(shù)和AI技術(shù)實(shí)現(xiàn)智能的數(shù)據(jù)分析和業(yè)務(wù)決策,即增強(qiáng)型分析。
本書的三位作者是來自德勤、前華為和前IBM的資深數(shù)據(jù)科學(xué)家,在大數(shù)據(jù)和AI領(lǐng)域至少都有10年以上的工作經(jīng)驗(yàn),他們將各自多年來在構(gòu)建數(shù)據(jù)挖掘模型,解決實(shí)際業(yè)務(wù)問題方面積累的經(jīng)驗(yàn)全部總結(jié)在了這本書中。
全書的內(nèi)容由兩條主線貫穿:
技術(shù)主線:一方面講解了預(yù)測(cè)模型、序列分析、預(yù)測(cè)分析、Prescriptive分析等前沿?cái)?shù)據(jù)處理技術(shù),一方面講解了CNN、RNN和GNN等前沿的AI技術(shù)如何為數(shù)據(jù)分析賦能。
業(yè)務(wù)主線:在數(shù)字化轉(zhuǎn)型的大時(shí)代背景下,如何通過數(shù)據(jù)分析實(shí)現(xiàn)智慧營銷、智慧風(fēng)險(xiǎn)管控,實(shí)現(xiàn)由初級(jí)的主動(dòng)營銷到被動(dòng)營銷,再到全渠道協(xié)同營銷等營銷手段的升級(jí)應(yīng)用。
本書的重點(diǎn)聚焦在本質(zhì)內(nèi)容上,即數(shù)據(jù)處理、算法及模型、模型洞見到業(yè)務(wù)決策的分析等。
全書共8章:
第1章:作者結(jié)合自己的從業(yè)經(jīng)驗(yàn)介紹了數(shù)據(jù)科學(xué)家的職業(yè)生涯發(fā)展、工作模式和工作方法要點(diǎn)等內(nèi)容,為有志成為數(shù)據(jù)科學(xué)家的讀者指明了道路和方向;
第2章:從描述性分析的角度講解了數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理衍生指標(biāo)加工方面的技巧;
第3章:介紹了預(yù)測(cè)類模型構(gòu)建時(shí)的新方法、新思路、新工具;
第4章:講解了序列分析的相關(guān)內(nèi)容,包括序列模式、序列規(guī)則、序列預(yù)測(cè)等的挖掘與應(yīng)用,用實(shí)例的方式說明了算法的原理、特點(diǎn)和使用技巧;
第5章:介紹了人工智能下一個(gè)階段的重點(diǎn)領(lǐng)域,即如何應(yīng)用數(shù)據(jù)分析做出*決策;
第6~8章:通過與傳統(tǒng)模型的對(duì)比,介紹了CNN、RNN、GNN等算法的原理,通過大量的實(shí)例說明了這些AI技術(shù)在數(shù)據(jù)分析與決策領(lǐng)域的用法和實(shí)際效果。
本書極具前瞻性:增強(qiáng)型分析是數(shù)據(jù)分析和數(shù)據(jù)科學(xué)的未來,人工智能技術(shù)為數(shù)據(jù)分析與決策賦能是未來必然發(fā)展趨勢(shì);
本書極具先進(jìn)性:詳細(xì)講解了序列分析、預(yù)測(cè)分析、規(guī)范性分析、RNN、CNN、GAN等前沿的數(shù)據(jù)處理技術(shù)和人工智能技術(shù);
本書極具權(quán)威性:本書3位作者是來自德勤、華為和前IBM的資深數(shù)據(jù)科學(xué)家,都在數(shù)據(jù)科學(xué)和人工智能領(lǐng)域有超過10年以上的工作經(jīng)驗(yàn);
本書極具實(shí)戰(zhàn)性:本書不只是講技術(shù)和工具,重點(diǎn)還有技術(shù)如何與實(shí)際的業(yè)務(wù)相結(jié)合,包含大量的實(shí)戰(zhàn)案例。
人工智能技術(shù)由于數(shù)據(jù)、算法、硬件支撐的計(jì)算能力等核心要素的共同發(fā)展,進(jìn)入了廣泛的、實(shí)質(zhì)性的應(yīng)用階段。在不遠(yuǎn)的將來,我們肯定能看到人工智能及其相關(guān)技術(shù)在不同行業(yè)發(fā)揮巨大的價(jià)值。
增強(qiáng)型分析將會(huì)長(zhǎng)足發(fā)展
多年以來,人們?cè)跇?gòu)建模型時(shí)總是要花費(fèi)大量的時(shí)間和精力在準(zhǔn)備數(shù)據(jù)、數(shù)據(jù)預(yù)處理、多次嘗試構(gòu)建模型、模型驗(yàn)證等過程上。在工業(yè)發(fā)展的歷程中,純手工打造的時(shí)代勢(shì)必要被標(biāo)準(zhǔn)化流水線的工廠取代,因?yàn)楣ば蚍纸夂罂梢园凑战y(tǒng)一的模式來處理。構(gòu)造模型的過程也可以從純手工打造時(shí)代發(fā)展為一個(gè)更加智能化的時(shí)代。筆者十年前在SPSS任職時(shí),就深度參與了自動(dòng)化建模相關(guān)組件的開發(fā),即同一個(gè)模型可以按照不同的算法來實(shí)現(xiàn)并通過同一個(gè)評(píng)價(jià)指標(biāo)篩選出最優(yōu)模型。這樣的功能在現(xiàn)在的開源算法庫(如sklearn)中已經(jīng)非常常見。最近AutoML、H2O等知名開源平臺(tái)使得自動(dòng)化建模又有了長(zhǎng)足的發(fā)展。然而建模自動(dòng)化并不是終點(diǎn)。
增強(qiáng)型分析(Augmented Analytics)于Gartner在2017年7月發(fā)表的《增強(qiáng)型分析是數(shù)據(jù)及分析的未來》報(bào)告中首次進(jìn)入人們的視野。其核心的概念包括:
智慧數(shù)據(jù)洞察(Smart Data Discovery)。應(yīng)用相關(guān)的工具能夠比較智能和自動(dòng)化地實(shí)現(xiàn)數(shù)據(jù)收集、準(zhǔn)備、集成、分析、建模,能夠輸出各種洞察,可以為人們?cè)趹?zhàn)略方向、對(duì)應(yīng)具體范圍的戰(zhàn)術(shù)活動(dòng)(如針對(duì)某市場(chǎng)機(jī)會(huì)發(fā)起營銷)、執(zhí)行(具體執(zhí)行營銷策略)等不同層面的活動(dòng)提供指導(dǎo),包括相關(guān)關(guān)系的發(fā)現(xiàn)、模式識(shí)別、趨勢(shì)判斷與預(yù)測(cè)、決策建議等。
增強(qiáng)型數(shù)據(jù)準(zhǔn)備(Augmented Data Preparation)。提供智能化的工具使得業(yè)務(wù)人員能夠快速、輕松地訪問數(shù)據(jù),并連接各種數(shù)據(jù)源通過統(tǒng)一的、標(biāo)準(zhǔn)化的、可交互的視圖展現(xiàn)內(nèi)容、數(shù)據(jù)間的關(guān)系等。同時(shí)提供豐富的工具進(jìn)行自動(dòng)數(shù)據(jù)歸約、清洗、智能化分箱、降噪等功能。增強(qiáng)型數(shù)據(jù)要能夠在原數(shù)據(jù)和經(jīng)過數(shù)據(jù)治理后的數(shù)據(jù)間靈活處理,盡量避免因?yàn)閿?shù)據(jù)治理而丟失信息,同時(shí)也避免在大量原數(shù)據(jù)間進(jìn)行無序的探索。
從上述的定義中可以看出,增強(qiáng)型分析的特點(diǎn)是其可以智能和自動(dòng)地完成數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)分析的工作。對(duì)于增強(qiáng)型分析的一個(gè)美好的預(yù)期就是交給機(jī)器大量的原數(shù)據(jù),機(jī)器直接針對(duì)特定場(chǎng)景給出決策建議。要實(shí)現(xiàn)這個(gè)愿景需要人們至少完成如下的幾個(gè)要點(diǎn)。
(1)大數(shù)據(jù)存儲(chǔ)與訪問
基于大數(shù)據(jù)平臺(tái)的存儲(chǔ)、計(jì)算的相關(guān)技術(shù)發(fā)展很快,目前已經(jīng)比較成熟,能夠高效地處理大量數(shù)據(jù)。
(2)數(shù)據(jù)分析流程的組件化、標(biāo)準(zhǔn)化改造
數(shù)據(jù)分析過程中關(guān)鍵步驟如數(shù)據(jù)收集、準(zhǔn)備、集成、分析、建模等過程,需要細(xì)分為不同的子任務(wù),并通過子任務(wù)間的靈活搭配構(gòu)成數(shù)據(jù)分析的流程。流程的自動(dòng)化運(yùn)行以及對(duì)應(yīng)的有價(jià)值的結(jié)果輸出已經(jīng)有了較好的組件,如H2O等。
(3)提供大量的算法支持?jǐn)?shù)據(jù)處理、模型構(gòu)建
算法既可以用來構(gòu)建業(yè)務(wù)模型,也可以用來分析數(shù)據(jù)間的關(guān)系、進(jìn)行變量聚類等工作。
(4)將模型洞見到業(yè)務(wù)決策納入分析范圍
模型輸出洞見,如模型輸出每一個(gè)客戶的購買可能性,還需要配套如當(dāng)購買可能性大于90%時(shí)再根據(jù)時(shí)機(jī)因素進(jìn)行推薦的業(yè)務(wù)決策,才能在實(shí)際營銷活動(dòng)中實(shí)施。這是一個(gè)洞見決策行動(dòng)的過程。
實(shí)現(xiàn)增強(qiáng)型分析所需的技術(shù)勢(shì)必是龐雜的,本書的重點(diǎn)涵蓋范圍是數(shù)據(jù)處理、算法及模型、模型洞見到業(yè)務(wù)決策的分析等內(nèi)容。這些內(nèi)容既是我們?nèi)粘=r(shí)要用到的技術(shù),也是增強(qiáng)型分析中必不可少的內(nèi)容。雖然增強(qiáng)型分析的表現(xiàn)形式是追求智能化、自動(dòng)化等功能,但是增強(qiáng)型分析的終極目標(biāo)還是通過數(shù)據(jù)分析發(fā)揮數(shù)據(jù)價(jià)值。目前增強(qiáng)型分析還處于概念在逐步清晰但需要不斷發(fā)展的階段,所以本書的重點(diǎn)是聚焦在其本質(zhì)內(nèi)容,即數(shù)據(jù)處理、算法及模型、模型洞見到業(yè)務(wù)決策的分析等內(nèi)容。
本書特點(diǎn)
應(yīng)用機(jī)器學(xué)習(xí)、人工智能技術(shù)不僅需要理解算法原理,還需要對(duì)算法參數(shù)調(diào)優(yōu)、算法使用時(shí)的數(shù)據(jù)要求、算法輸出結(jié)果,以及如何在具體業(yè)務(wù)場(chǎng)景使用數(shù)據(jù)挖掘模型等方面都有所了解,這樣才能真正發(fā)揮數(shù)據(jù)價(jià)值,產(chǎn)生實(shí)際的業(yè)務(wù)效果。
本書作者結(jié)合多年來給不同的大型機(jī)構(gòu)構(gòu)建數(shù)據(jù)挖掘模型、解決實(shí)際業(yè)務(wù)問題的實(shí)踐,總結(jié)歸納技術(shù)、應(yīng)用等方面的經(jīng)驗(yàn),以介紹較新機(jī)器學(xué)習(xí)及人工智能技術(shù)和如何應(yīng)用這些技術(shù)解決實(shí)際問題兩個(gè)方面作為本書的整體選題思路?傮w來講,本書具有如下兩個(gè)主要特點(diǎn)。
(1)介紹較新的技術(shù)
有監(jiān)督學(xué)習(xí)的建模技術(shù)早已不是只懂得算法就可以了。目前基于集成學(xué)習(xí)、Grid Search、交叉驗(yàn)證等自動(dòng)化建模技術(shù)方興未艾,這些技術(shù)在專門的章節(jié)作了重點(diǎn)介紹;基于序列模式挖掘、序列規(guī)則、序列預(yù)測(cè)等進(jìn)入公眾視野還較新的技術(shù)在實(shí)際業(yè)務(wù)中有巨大的價(jià)值,這些也是本書介紹的重點(diǎn);對(duì)于目前比較火熱的深度學(xué)習(xí)、對(duì)抗學(xué)習(xí)等內(nèi)容,本書也有專門的章節(jié)進(jìn)行介紹。從這些技術(shù)的特點(diǎn)來看,已經(jīng)具備了增強(qiáng)型分析的部分特點(diǎn),如集成學(xué)習(xí)的技術(shù)就是旨在將多個(gè)模型結(jié)合起來,達(dá)到相對(duì)于單獨(dú)采用一個(gè)模型而明顯改善的效果。
(2)兼顧原理與大量實(shí)例
按照深入淺出的方式介紹算法原理、參數(shù)調(diào)優(yōu)及使用方法等信息,并結(jié)合實(shí)際例子展示如何使用以及使用時(shí)的思路。筆者采用深入淺出的原理介紹 實(shí)際使用的案例的內(nèi)容安排,期望能夠讓讀者真正了解機(jī)器學(xué)習(xí)及人工智能的技術(shù)原理、特點(diǎn)與使用方法,并能直接在實(shí)踐中起到指導(dǎo)作用。
除此之外,在本書中涉及漢語直譯不能達(dá)意的詞匯時(shí)都是采用英語原詞,方便讀者能夠與科技類的英文材料對(duì)應(yīng),盡量避免生硬翻譯帶來的疑惑。在本書的大量實(shí)例中,代碼注釋基本上都是英文的,這與筆者多年的編碼習(xí)慣有關(guān)。
讀者范圍
本書的目標(biāo)讀者是實(shí)際解決業(yè)務(wù)問題的數(shù)據(jù)分析建模人員。目前各個(gè)企業(yè)在應(yīng)用機(jī)器學(xué)習(xí)及人工智能方面,不斷在人才、技術(shù)、平臺(tái)方面進(jìn)行投入,特別是不斷招聘了大量的數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)方面的人才。但是能夠?qū)嶋H解決業(yè)務(wù)問題的數(shù)據(jù)分析建模人員,除了對(duì)算法原理要了解外,還需要對(duì)業(yè)務(wù)有一定了解,同時(shí)需要打開眼界快速了解不同的建模方法能夠解決什么問題;除此之外,還要具備較高的實(shí)踐能力,能夠靈活應(yīng)用不同的技術(shù)工具來快速完成任務(wù)。
本書深入淺出的原理介紹 實(shí)際使用的案例的內(nèi)容安排能夠使得數(shù)據(jù)分析建模人員從算法原理、數(shù)據(jù)挖掘知識(shí)結(jié)構(gòu)、業(yè)務(wù)應(yīng)用方法等方面得到提升,幫助數(shù)據(jù)分析建模人員開闊眼界、優(yōu)化知識(shí)結(jié)構(gòu)、提升實(shí)踐技能。
從整體來說,本書適用于中、高級(jí)的數(shù)據(jù)分析建模人員,但是初學(xué)者也能從實(shí)例中得到重要的參考。
章節(jié)概要說明
在本書的內(nèi)容安排中,保持業(yè)務(wù)和技術(shù)兩個(gè)主線:業(yè)務(wù)主線是數(shù)字化轉(zhuǎn)型背景下的智慧營銷、智慧風(fēng)險(xiǎn)管控如何通過數(shù)據(jù)分析完成具體工作,實(shí)現(xiàn)由初級(jí)的主動(dòng)營銷到被動(dòng)營銷,再到全渠道協(xié)同營銷等營銷手段的升級(jí)應(yīng)用;技術(shù)主線是從常見算法的較新發(fā)展到深度學(xué)習(xí)及對(duì)抗學(xué)習(xí)的復(fù)雜度由低向高分析技術(shù)由預(yù)測(cè)性分析到Prescriptive分析進(jìn)行介紹。具體對(duì)應(yīng)于大綱的內(nèi)容如表1所示。
表1 本書章節(jié)大綱概覽
章節(jié) 技 術(shù) 業(yè) 務(wù)
內(nèi)容概要 技術(shù)分類 內(nèi)容概要 業(yè)務(wù)分類
第1章 鼓勵(lì)數(shù)據(jù)科學(xué)家加入數(shù)字化變革的進(jìn)程,與業(yè)務(wù)深度結(jié)合
第2章 數(shù)據(jù)處理技巧、數(shù)據(jù)可視化等 描述性分析
第3章 介紹預(yù)測(cè)類模型構(gòu)建時(shí)的新方法、新思路、新工具 預(yù)測(cè)性分析(輸出洞見) 通過一個(gè)具體案例,利用看重客戶需求而從眾多產(chǎn)品中尋找最可能的推薦。較之前單個(gè)產(chǎn)品響應(yīng)預(yù)測(cè),是從以客戶為中心的視角來產(chǎn)生推薦,以解決多產(chǎn)品排序的問題,實(shí)際效果有較大提升 主動(dòng)營銷
第4章 介紹序列分析的相關(guān)技術(shù),應(yīng)用較新的算法以實(shí)例的方式說明算法原理、特點(diǎn)、注意事項(xiàng)等 客戶行為是不是存在一些共有模式?客戶下一個(gè)行為會(huì)是什么?這些都是具體營銷和分享管控領(lǐng)域的實(shí)際問題,對(duì)營銷和風(fēng)險(xiǎn)的具體決策具有非常大的影響。仔細(xì)挖掘,善于應(yīng)用,往往能取得非常好的效果 事件式營銷(被動(dòng)營銷)
第5章 介紹Prescriptive Analytics的相關(guān)技術(shù),這方面的技術(shù)注定會(huì)成為數(shù)據(jù)分析不斷深入應(yīng)用時(shí)要用到的重點(diǎn)技術(shù) Prescriptive 分析(輸出決策) 因?yàn)閭鹘y(tǒng)模型大多只輸出名單,而Prescriptive Analytics模型要輸出的是名單 決策,實(shí)現(xiàn)真正的智能決策 全渠道協(xié)同營銷(考慮成本、收益等諸多限制因素)
第6章 通過與傳統(tǒng)模型的對(duì)比,介紹CNN算法的原理,通過大量實(shí)例說明其特點(diǎn)、用法、實(shí)際效果等
第7章 通過介紹RNN算法的原理、特點(diǎn),以大量實(shí)例的方式說明其用法 通過LSTM算法研究客戶行為預(yù)測(cè),掌握精準(zhǔn)的營銷時(shí)機(jī) 基于客戶行為事件式營銷
第8章 通過介紹Generative Adversarial Network算法的原理、特點(diǎn),以實(shí)例的方式說明其用法
總體來講,本書是一本既能擴(kuò)展讀者視野又具有實(shí)際參考價(jià)值,能夠緊貼實(shí)際業(yè)務(wù)的關(guān)于大數(shù)據(jù)與人工智能的書籍。
在上述章節(jié)中,筆者完成了大部分工作,另外兩位作者協(xié)助筆者做了一些內(nèi)容補(bǔ)充,這些內(nèi)容包括:張宗耀完成了2.1節(jié)、2.2節(jié)、3.6節(jié)、5.4節(jié)、7.3節(jié);聶磊完成了第2章的大幅修改、5.5節(jié)、5.7節(jié)、6.2節(jié)。在整個(gè)寫作過程中,大家經(jīng)常一起討論、相互學(xué)習(xí),這個(gè)過程很愉悅!
為什么寫這本書
筆者自2008年加入IBM SPSS,從一個(gè)單純的軟件開發(fā)者變身為數(shù)據(jù)分析行業(yè)的參與者至今已經(jīng)快11年了。在這段時(shí)間,數(shù)據(jù)分析行業(yè)發(fā)生了巨大變化,作為行業(yè)的參與者,筆者自身從業(yè)經(jīng)歷也在不停地發(fā)生變化?偨Y(jié)下來,筆者遵從數(shù)據(jù)分析驅(qū)動(dòng)業(yè)務(wù)的主線,按照軟件開發(fā)人員數(shù)據(jù)挖掘工具開發(fā)者和團(tuán)隊(duì)管理者資深數(shù)據(jù)科學(xué)家深入理解業(yè)務(wù)的資深數(shù)據(jù)科學(xué)家深刻理解數(shù)字化變革的高級(jí)咨詢顧問和管理者的職業(yè)路徑,在數(shù)據(jù)分析行業(yè)的浩瀚波瀾中前行。這些年的從業(yè)經(jīng)歷,筆者有如下幾點(diǎn)感觸。
(1)從事數(shù)據(jù)分析行業(yè)的人是需要不斷充電的
用日新月異來形容數(shù)據(jù)分析的發(fā)展是最為確切的了,新技術(shù)、新論文不斷涌現(xiàn)。大量書籍上描述的是一些基本的算法,對(duì)于新技術(shù)、新算法,我們應(yīng)該永遠(yuǎn)保持不斷學(xué)習(xí)的態(tài)度,才能在日常數(shù)據(jù)分析實(shí)踐中不斷發(fā)揮作用。書中并沒有講大家在很多書籍上能看到的傳統(tǒng)算法,而是重點(diǎn)講一些大多數(shù)書籍還未涉及的內(nèi)容。
(2)真正發(fā)揮數(shù)據(jù)價(jià)值需要融會(huì)貫通數(shù)據(jù)與業(yè)務(wù)
在很多情況下,當(dāng)數(shù)據(jù)科學(xué)家花費(fèi)大量時(shí)間和精力構(gòu)建出模型后,興高采烈地試圖交給業(yè)務(wù)人員使用時(shí),往往會(huì)遇到一個(gè)有趣的情況:業(yè)務(wù)人員聽不懂你對(duì)高深算法的解釋,甚至不在乎你對(duì)數(shù)據(jù)的各種費(fèi)心處理,他們只關(guān)心實(shí)際的問題,如模型到底效果如何。所以在本書中穿插了大量與業(yè)務(wù)相關(guān)的例子。
(3)數(shù)字化變革的浪潮與數(shù)據(jù)分析的廣泛應(yīng)用密不可分
數(shù)字化變革是目前幾乎所有企業(yè)都無法回避的任務(wù)。企業(yè)由于所處行業(yè)、自身特點(diǎn)等原因,需要量身定制數(shù)字化轉(zhuǎn)型的戰(zhàn)略。大型企業(yè)需要選擇發(fā)展重點(diǎn)作為突破方向,在轉(zhuǎn)型過程中既要做好技術(shù)基礎(chǔ),也需要大力推行敏捷的方法,同時(shí)要對(duì)人們的觀念、組織內(nèi)的流程等方面做出更新。數(shù)據(jù)分析的廣泛應(yīng)用在數(shù)字化變革中勢(shì)必要發(fā)揮巨大作用。筆者認(rèn)為數(shù)據(jù)分析者要抬頭看,深刻地參與到數(shù)字化變革的浪潮中。
本書的寫作歷時(shí)近一年,筆者在做好本職工作的同時(shí)花費(fèi)了巨大的精力總結(jié)歸納過往項(xiàng)目經(jīng)驗(yàn)、學(xué)習(xí)研究新技術(shù)。這個(gè)過程既是一個(gè)自我充電的過程,也是一個(gè)不斷總結(jié)歸納的過程。筆者試圖盡力做到將自己走過的路按照深入淺出的方式講出來,期望提供一定的參考價(jià)值。這也是筆者寫這本書的目的。
筆者相信書中難免有一些疏漏,非常希望能夠得到閱讀反饋。讀者可以通過yfc@hzbook.com聯(lián)系到筆者。
感謝
筆者年近不惑,能夠有大量時(shí)間花費(fèi)在寫書上,是因?yàn)楣P者的父母、愛人、孩子給筆者鑄就了一個(gè)堅(jiān)強(qiáng)的后方。風(fēng)暖春日雪,化作涓涓流,這是愛人、孩子和筆者在一次春游時(shí)看到終南山中的雪即興而作的。其實(shí)這也能對(duì)應(yīng)到現(xiàn)實(shí)中,家人的愛和關(guān)心讓筆者在前行時(shí)如沐春風(fēng),遇到困難時(shí)他們就是筆者的動(dòng)力!同時(shí)也感謝筆者的三個(gè)姐姐對(duì)筆者的關(guān)心和鼓勵(lì)。
感謝另外兩位作者張宗耀和聶磊,一位是我的師弟,另一位是與我完成過第一本書《發(fā)現(xiàn)數(shù)據(jù)之美數(shù)據(jù)分析原理與實(shí)踐》的合著者。兄弟之情已經(jīng)在聚會(huì)、討論、相互學(xué)習(xí)、寫作中鐫刻在我們各自的人生軌跡中!
感謝德勒中國副主席、金融服務(wù)業(yè)領(lǐng)導(dǎo)合伙人吳衛(wèi)軍能夠在百忙之中給本書作序并給出非常積極的評(píng)價(jià)。吳總在寫序過程中,嚴(yán)謹(jǐn)?shù)墓ぷ鲬B(tài)度給我留下深刻印象,這使我覺得他的序言非常重要。感謝筆者的研究生導(dǎo)師西安交通大學(xué)朱利教授的鼓勵(lì)與肯定,并欣然接受給本書作序的請(qǐng)求。青春揮灑的校園生活是筆者不能忘記的,特別感謝老師在筆者上學(xué)期間的關(guān)心與培養(yǎng)。
感謝筆者的老板吳穎蘭(德勤全球主管合伙人)在筆者寫作過程中的鼓勵(lì);感謝上海依圖網(wǎng)絡(luò)科技有限公司COO張小平在筆者寫作過程中給予的鼓勵(lì);感謝美麗聰慧的同事崔璨、羅瑞麗能夠在筆者寫作過程中不斷給予鼓勵(lì),并提出非常有價(jià)值的意見;感謝同事李敬軍、曹文俊、劉田林、劉婷婷、仇敏訥、李宸豪、馬克、母丹、張宇?yuàn),在一起做?xiàng)目的過程中,我們相互學(xué)習(xí)、相互成長(zhǎng)。
感謝我們的客戶,在項(xiàng)目中我們能夠相互學(xué)習(xí)、相互提高?梢苑浅?隙ǖ卣f,客戶的很多痛點(diǎn)是筆者不斷學(xué)習(xí)的動(dòng)力所在。
感謝機(jī)械工業(yè)出版社楊福川編輯對(duì)本書的肯定,他的專業(yè)性和工作效率讓筆者驚嘆。感謝機(jī)械工業(yè)出版社常曉敏老師在鮮讀渠道對(duì)本書的大力推廣,也萬分感謝鮮讀渠道上熱心讀者給本書內(nèi)容提出的各種意見和建議。
彭鴻濤
彭鴻濤
德勤企業(yè)咨詢總監(jiān)兼首席數(shù)據(jù)科學(xué)家,德勤全球AI團(tuán)隊(duì)核心成員,德勤數(shù)字化轉(zhuǎn)型、智慧營銷、智慧風(fēng)控、客戶體驗(yàn)等核心咨詢服務(wù)方案的資深顧問。
2008年加入SPSS并與跨國家團(tuán)隊(duì)一起進(jìn)行Analytical Decision Management決策自動(dòng)化工具的開發(fā),與國內(nèi)外團(tuán)隊(duì)一起構(gòu)建了SPSS在不同應(yīng)用領(lǐng)域的解決方案,其中某些方案現(xiàn)已成長(zhǎng)為IBM的知名解決方案;2014年加入IBM GBSC部門,領(lǐng)導(dǎo)數(shù)據(jù)分析團(tuán)隊(duì),針對(duì)不同客戶設(shè)計(jì)和實(shí)施數(shù)據(jù)分析的方案;2016年加入IBM GBSGBS Cognitive Business Decision Support擔(dān)任CTO和首席數(shù)據(jù)科學(xué)家,領(lǐng)導(dǎo)團(tuán)隊(duì)開發(fā)實(shí)施了有一定行業(yè)影響力的人工智能應(yīng)用;2017年加入德勤企業(yè)咨詢擔(dān)任金融服務(wù)總監(jiān)及首席數(shù)據(jù)科學(xué)家,領(lǐng)導(dǎo)團(tuán)隊(duì)開拓?cái)?shù)字化轉(zhuǎn)型背景下的新型咨詢服務(wù)方案,期間高質(zhì)量交付大型銀行的數(shù)字化轉(zhuǎn)型及實(shí)施相關(guān)項(xiàng)目并得到客戶高度認(rèn)可。
張宗耀
上海全應(yīng)科技有限公司資深數(shù)據(jù)科學(xué)家,前華為企業(yè)智能部門資深數(shù)據(jù)科學(xué)家,前IBM SPSS 算法組件團(tuán)隊(duì)資深算法工程師。
2009年加入IBM SPSS算法組件團(tuán)隊(duì),負(fù)責(zé)Statistic和Modeler產(chǎn)品的升級(jí)和維護(hù);2012年開始大數(shù)據(jù)算法組件的設(shè)計(jì)和開發(fā),為分布式分析引擎提供了核心計(jì)算單元,主導(dǎo)完成開發(fā)了分布式平臺(tái)下的廣義線性模型、自動(dòng)建模算法、ADMM優(yōu)化算法等,打造了分析引擎平臺(tái)以及SPSS Modeler產(chǎn)品的最具競(jìng)爭(zhēng)力算法模塊;2015年開始投入Spark分布式框架的算法設(shè)計(jì)和開發(fā),主導(dǎo)完成開發(fā)了生存分析算法、時(shí)間序列相關(guān)算法等,豐富了SPSS產(chǎn)品的核心算法組件。2016年加入華為,先后就職于華為的數(shù)據(jù)挖掘團(tuán)隊(duì),以及企業(yè)智能部門的機(jī)器學(xué)習(xí)服務(wù)團(tuán)隊(duì)和工業(yè)解決方案團(tuán)隊(duì),負(fù)責(zé)算法、機(jī)器學(xué)習(xí)、實(shí)時(shí)預(yù)測(cè)、數(shù)據(jù)分析,以及行業(yè)解決方案的設(shè)計(jì)、開發(fā)和部署相關(guān)的工作。
聶磊
陜西萬禾數(shù)字科技有限公司CTO,前IBM SPSS 資深數(shù)據(jù)科學(xué)家,前IBM Watson Analytics數(shù)據(jù)分析引擎技術(shù)主管及架構(gòu)師。
2008 年加入IBM Analytical Decision Management團(tuán)隊(duì),主導(dǎo)開發(fā)了業(yè)務(wù)規(guī)則引擎和基于優(yōu)化技術(shù)的預(yù)測(cè)性維護(hù)解決方案;2014年加入IBM Watson Analytics團(tuán)隊(duì),擔(dān)任技術(shù)主管兼架構(gòu)師,主導(dǎo)了IBM Watson Analytics數(shù)據(jù)分析引擎基于Spark技術(shù)的轉(zhuǎn)換,極大提高了平臺(tái)的計(jì)算能力;2017年擔(dān)任IBM Cognos Analytics團(tuán)隊(duì)架構(gòu)師,主持了自動(dòng)化技術(shù)的引入
推薦序一
推薦序二
前言
第1章 數(shù)據(jù)科學(xué)家的成長(zhǎng)之路 1
1.1 算法與數(shù)據(jù)科學(xué)家 1
1.1.1 數(shù)據(jù)科學(xué)、人工智能、機(jī)器學(xué)習(xí)等 2
1.1.2 室內(nèi)活動(dòng)還是室外活動(dòng) 3
1.2 數(shù)據(jù)科學(xué)家不斷成長(zhǎng)的幾個(gè)階段 3
1.2.1 算法如何構(gòu)建數(shù)據(jù)分析模型 5
1.2.2 用法如何回頭看模型 6
1.2.3 業(yè)務(wù)如何產(chǎn)生更大價(jià)值 7
1.2.4 戰(zhàn)略如何更廣 8
1.3 數(shù)據(jù)科學(xué)家的工作模式與組織結(jié)構(gòu) 9
1.3.1 數(shù)據(jù)驅(qū)動(dòng)還是業(yè)務(wù)驅(qū)動(dòng) 9
1.3.2 數(shù)據(jù)科學(xué)家團(tuán)隊(duì)的組織結(jié)構(gòu) 9
1.4 數(shù)據(jù)科學(xué)家的工作方法要點(diǎn) 10
第2章 大數(shù)據(jù)探索及預(yù)處理 13
2.1 大數(shù)據(jù)探索 13
2.1.1 數(shù)值類型 13
2.1.2 連續(xù)型數(shù)據(jù)的探索 14
2.1.3 分類型數(shù)據(jù)的探索 19
2.1.4 示例:數(shù)據(jù)探索 20
2.2 數(shù)據(jù)預(yù)處理 26
2.2.1 數(shù)據(jù)清洗 26
2.2.2 數(shù)據(jù)變換 29
2.2.3 數(shù)據(jù)歸約 41
2.3 衍生指標(biāo)的加工 44
2.3.1 衍生指標(biāo)概述 45
2.3.2 將數(shù)值轉(zhuǎn)化為百分位數(shù) 45
2.3.3 把類別變量替換為數(shù)值 46
2.3.4 多變量組合 47
2.3.5 從時(shí)間序列中提取特征 47
第3章 預(yù)測(cè)模型的新技術(shù) 49
3.1 集成學(xué)習(xí) 49
3.1.1 Averaging方法 49
3.1.2 Boosting方法 51
3.2 Gradient Tree Boosting介紹 53
3.2.1 梯度與梯度下降 53
3.2.2 Gradient Tree Boosting算法的原理 55
3.3 Gradient Tree Boosting的改進(jìn)方向 57
3.3.1 Gradient Tree Boosting的使用要點(diǎn) 57
3.3.2 Regularization 59
3.3.3 XGBoost介紹 60
3.4 模型的最佳參數(shù)設(shè)置 60
3.5 投票決定最終預(yù)測(cè)結(jié)果 65
3.6 讓模型在訓(xùn)練結(jié)束后還能被更新 66
3.6.1 熱啟動(dòng) 67
3.6.2 增量學(xué)習(xí) 67
3.7 多輸出預(yù)測(cè) 68
3.7.1 Binary Relevance 69
3.7.2 Classifier Chain 70
3.7.3 Ensemble Classifier Chain 70
3.8 案例:如何給客戶從數(shù)百個(gè)產(chǎn)品中尋找合適的產(chǎn)品 71
3.8.1 問題提出 72
3.8.2 建模思路 72
3.8.3 模型訓(xùn)練及應(yīng)用 73
第4章 序列分析 76
4.1 通過客戶行為研究做出服務(wù)策略 76
4.2 頻繁項(xiàng)集、關(guān)聯(lián)規(guī)則的挖掘 77
4.2.1 基本概念 77
4.2.2 頻繁或稀疏項(xiàng)集的挖掘 78
4.2.3 關(guān)聯(lián)規(guī)則的挖掘 86
4.3 序列模式的挖掘以及應(yīng)用 88
4.3.1 換種視角觀察項(xiàng)間的順序 88
4.3.2 事無巨細(xì)還是事有巨細(xì) 89
4.3.3 序列挖掘的相關(guān)算法介紹 92
4.3.4 示例:挖掘購買物品的序列模式 96
4.4 序列規(guī)則的挖掘以及應(yīng)用 101
4.4.1 將頻繁序列通過業(yè)務(wù)解讀轉(zhuǎn)換為行動(dòng)指南 101
4.4.2 序列規(guī)則的挖掘?qū)崿F(xiàn)行動(dòng)指南 102
4.4.3 序列規(guī)則的挖掘算法 102
4.4.4 示例:通過客戶購買產(chǎn)品的序列推薦合適的產(chǎn)品 104
4.5 序列預(yù)測(cè)的挖掘以及應(yīng)用 107
4.5.1 序列規(guī)則與序列預(yù)測(cè)的關(guān)系 107
4.5.2 序列預(yù)測(cè)算法的介紹 108
4.5.3 示例:客戶下一步會(huì)做什么 110
第5章 應(yīng)用數(shù)據(jù)分析做出最優(yōu)決策 114
5.1 Prescriptive分析概述 114
5.1.1 業(yè)務(wù)分析的3個(gè)層次 115
5.1.2 為什么需要Prescriptive分析 116
5.1.3 什么時(shí)候需要Prescriptive分析 117
5.2 確定因素和非確定因素下的決策分析 118
5.3 What-If分析和Goal Seeking分析 121
5.4 優(yōu)化技術(shù)介紹 122
5.4.1 數(shù)據(jù)挖掘算法中常用的優(yōu)化技術(shù) 122
5.4.2 優(yōu)化問題求解工具介紹 127
5.4.3 CVXPY優(yōu)化工具在機(jī)器學(xué)習(xí)算法中的應(yīng)用 130
5.4.4 應(yīng)用優(yōu)化技術(shù)尋找最優(yōu)產(chǎn)品推薦 134
5.5 仿真分析 135
5.5.1 蒙特卡洛的介紹 135
5.5.2 采用蒙特卡洛方法進(jìn)行重采樣 137
5.6 馬爾可夫鏈及馬爾可夫決策過程 143
5.6.1 馬爾可夫過程及馬爾可夫鏈 145
5.6.2 馬爾可夫決策過程及應(yīng)用工具 148
5.6.3 應(yīng)用馬爾可夫決策過程研究營銷策略及客戶生命周期價(jià)值 151
第6章 深入探討CNN 155
6.1 換個(gè)角度討論CNN 155
6.1.1 卷積是在做什么 156
6.1.2 人臉檢測(cè)與人臉識(shí)別 159
6.1.3 深度學(xué)習(xí)意味著什么 165
6.1.4 CNN的結(jié)構(gòu) 168
6.1.5 CNN的訓(xùn)練及結(jié)果 172
6.2 用CNN做人臉識(shí)別 174
6.2.1 數(shù)據(jù)加載 175
6.2.2 使用ImageDataGenerator 175
6.2.3 定義模型和訓(xùn)練模型 176
6.2.4 詳細(xì)探究卷積最終的效果 178
6.3 Embedding 181
6.3.1 文本向量化的一般方法 181
6.3.2 Word Embedding的原理及實(shí)現(xiàn) 186
6.3.3 利用Word Embedding實(shí)現(xiàn)翻譯 190
6.3.4 Embedding的用途不止于Word Embedding 192
6.4 一個(gè)例子:文本分類 193
6.4.1 采用傳統(tǒng)分類模型實(shí)現(xiàn)文本分類 193
6.4.2 采用CNN進(jìn)行文本分類 196
6.4.3 采用FastText進(jìn)行文本分類 200
第7章 深入探討RNN 201
7.1 兩種建模方法:Prediction 和 Sequence Labeling 201
7.1.1 Prediction的特點(diǎn) 201
7.1.2 Sequence Labeling的特點(diǎn) 202
7.2 RNN及其變種的詳細(xì)原理 203
7.2.1 RNN的Activation 函數(shù) 204
7.2.2 RNN 的初級(jí)神經(jīng)元及計(jì)算邏輯 205
7.2.3 LSTM的神經(jīng)元及計(jì)算邏輯 205
7.2.4 GRU的神經(jīng)元與計(jì)算邏輯 206
7.2.5 深度RNN的原理 207
7.2.6 RNN算法的輸入輸出形式 208
7.3 利用LSTM預(yù)測(cè)股票價(jià)格 209
7.3.1 模型構(gòu)建及驗(yàn)證 209
7.3.2 模型應(yīng)用的探討 216
7.4 讓計(jì)算機(jī)學(xué)會(huì)寫唐詩 216
7.4.1 構(gòu)想:如何讓計(jì)算機(jī)能夠?qū)懗鎏圃?216
7.4.2 構(gòu)建:模型實(shí)現(xiàn)的過程 218
7.5 預(yù)測(cè)客戶的下一個(gè)行為 221
7.5.1 構(gòu)想:如何利用LSTM實(shí)現(xiàn)客戶行為的預(yù)測(cè) 221
7.5.2 構(gòu)建:模型實(shí)現(xiàn)過程 222
7.6 計(jì)算機(jī),請(qǐng)告訴我你看到了什么 226
7.6.1 構(gòu)想:如何讓計(jì)算機(jī)生成圖片描述 226
7.6.2 實(shí)現(xiàn):逐步構(gòu)建圖片描述生成模型 227
7.6.3 VQA 232
第8章 深入探討GAN 235
8.1 基本原理 235
8.1.1 構(gòu)想 235
8.1.2 GAN的基本結(jié)構(gòu) 237
8.1.3 GAN模型訓(xùn)練及應(yīng)用過程 240
8.1.4 GAN原理的再探索 241
8.2 讓計(jì)算機(jī)書寫數(shù)字 243
8.2.1 建模思路 243
8.2.2 基本實(shí)現(xiàn)過程 244
8.2.3 采用DCGAN來實(shí)現(xiàn) 248
8.3 讓計(jì)算機(jī)畫一張人臉 251
8.3.1 如何讓計(jì)算機(jī)理解我們的要求 252
8.3.2 基本實(shí)現(xiàn)過程 253