白話(huà)大數(shù)據(jù)與機(jī)器學(xué)習(xí)
定 價(jià):69 元
- 作者:高揚(yáng), 衛(wèi)崢, 尹會(huì)生著
- 出版時(shí)間:2016/6/1
- ISBN:9787111538479
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:328頁(yè)
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:16K
資深大數(shù)據(jù)專(zhuān)家多年實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié),拒絕晦澀,開(kāi)啟大數(shù)據(jù)與機(jī)器學(xué)習(xí)妙趣之旅。以降低學(xué)習(xí)曲線和閱讀難度為宗旨,系統(tǒng)講解統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、實(shí)際應(yīng)用案例、數(shù)據(jù)價(jià)值與變現(xiàn),以及高級(jí)拓展技能,并清晰勾勒出大數(shù)據(jù)技術(shù)路線與產(chǎn)業(yè)藍(lán)圖。
本書(shū)共分18章。用通俗易懂的語(yǔ)言,結(jié)合大量案例與漫畫(huà),不枯燥,實(shí)用、接地氣。
第1~5章,這部分是大數(shù)據(jù)入門(mén)所需的系統(tǒng)性知識(shí),剖析大數(shù)據(jù)產(chǎn)業(yè)、數(shù)據(jù)與信息算法等的關(guān)系,妙解數(shù)學(xué)基礎(chǔ)(排列組合、概率、統(tǒng)計(jì)與分布),以及指標(biāo)化運(yùn)營(yíng)及體系構(gòu)建。這部分補(bǔ)足讀者的產(chǎn)業(yè)與相關(guān)概念認(rèn)知,以及所需的數(shù)學(xué)知識(shí)。為下面的數(shù)據(jù)挖掘算法的理解與應(yīng)用夯實(shí)基礎(chǔ)。
第6~8章,這部分介紹數(shù)據(jù)挖掘基礎(chǔ)知識(shí)與算法,講解了與數(shù)據(jù)息息相關(guān)的信息論,重點(diǎn)講解了:多維向量空間(向量和維度、矩陣及其計(jì)算、上卷和下鉆);
回歸(線性回歸、殘差分析、擬合相關(guān)問(wèn)題);
聚類(lèi)(K-Means算法、有趣模式、孤立點(diǎn)、層次與密度聚類(lèi),聚類(lèi)的評(píng)估等);
分類(lèi)(樸素貝葉斯、決策樹(shù)歸納、隨機(jī)森林、隱馬爾科夫模型、SVM、遺傳算法)。
第11~18章,這部分介紹生產(chǎn)應(yīng)用與高級(jí)擴(kuò)展。其中第11~15章介紹生產(chǎn)應(yīng)用實(shí)踐,涵蓋關(guān)聯(lián)分析、用戶(hù)畫(huà)像、推薦算法、文本挖掘、人工神經(jīng)網(wǎng)絡(luò)。這些也是工業(yè)界和學(xué)術(shù)界研究的熱點(diǎn)。第16章講解了著名的大數(shù)據(jù)框架及其安裝與配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章從速度與穩(wěn)定性維度介紹了大數(shù)據(jù)系統(tǒng)的架構(gòu)與調(diào)優(yōu)。第18章則從數(shù)據(jù)運(yùn)營(yíng)、評(píng)估、展現(xiàn)與變現(xiàn)場(chǎng)景層面進(jìn)行了解讀。
附錄部分給出了大數(shù)據(jù)平臺(tái)運(yùn)行可能需要的軟件和庫(kù),以及群眾如何看待炙手可熱的大數(shù)據(jù)。
資深大數(shù)據(jù)專(zhuān)家多年實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié),拒絕晦澀,開(kāi)啟大數(shù)據(jù)與機(jī)器學(xué)習(xí)妙趣之旅
以降低學(xué)習(xí)曲線和閱讀難度為宗旨,重點(diǎn)講解了統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、實(shí)際應(yīng)用案例、數(shù)據(jù)價(jià)值與變現(xiàn),以及高級(jí)拓展技能,清晰勾勒出大數(shù)據(jù)技術(shù)路線與產(chǎn)業(yè)藍(lán)圖
目前很多大中型企業(yè)都有數(shù)據(jù)分析崗位,尤其是和自己業(yè)務(wù)結(jié)合緊密的分析崗位。企業(yè)求賢若渴,而求職者對(duì)數(shù)據(jù)分析崗位望而卻步。這就是當(dāng)前大數(shù)據(jù)分析市場(chǎng)的尷尬。
原因有三:
●數(shù)學(xué)基礎(chǔ)薄弱:很多應(yīng)用中的統(tǒng)計(jì)學(xué)、概率學(xué),成為學(xué)習(xí)中的巨大阻力。
●學(xué)習(xí)成本高:數(shù)學(xué)和相關(guān)的算法過(guò)于抽象,布道者往往忽略了很多解釋性的內(nèi)容,使得讀者學(xué)習(xí)起來(lái)費(fèi)時(shí)費(fèi)力。
●變現(xiàn)不確定:這也是數(shù)據(jù)分析人員的尷尬。個(gè)人對(duì)數(shù)據(jù)的加工增值以及變現(xiàn)有多大的貢獻(xiàn)難以度量。
本書(shū)通俗易懂,有高中數(shù)學(xué)基礎(chǔ)即可看懂,同時(shí)結(jié)合大量案例與漫畫(huà),將高度抽象的數(shù)學(xué)、算法與應(yīng)用,與現(xiàn)實(shí)生活中的案例和事件一一做了關(guān)聯(lián),將源自生活的抽象還原出來(lái),幫助讀者理解后,又帶領(lǐng)大家將這些抽象的規(guī)律與算法應(yīng)用于實(shí)踐,貼合讀者需求。同時(shí),本書(shū)不是割裂講解大數(shù)據(jù)與機(jī)器學(xué)習(xí)的算法和應(yīng)用,還講解了其生態(tài)環(huán)境與關(guān)聯(lián)內(nèi)容,讓讀者更全面地知曉淵源與未來(lái),是系統(tǒng)學(xué)習(xí)大數(shù)據(jù)與機(jī)器學(xué)習(xí)的不二之選:
●大數(shù)據(jù)產(chǎn)業(yè)解讀——剖析產(chǎn)業(yè)情況,人才供需、職業(yè)選擇與相應(yīng)“武器”庫(kù);
●步入大數(shù)據(jù)之門(mén)——解讀數(shù)據(jù)、信息、算法,以及與大數(shù)據(jù)應(yīng)用的關(guān)系;
●大數(shù)據(jù)基石——結(jié)合大量示例和漫畫(huà),趣味講解大數(shù)據(jù)算法應(yīng)掌握的數(shù)學(xué)知識(shí),無(wú)障礙學(xué)習(xí);
●大數(shù)據(jù)算法奧義——信息論、向量空間、回歸、聚類(lèi)、分類(lèi)等*為核心的算法的釋義與應(yīng)用,舉重若輕;
●大數(shù)據(jù)熱門(mén)應(yīng)用——關(guān)聯(lián)分析、用戶(hù)畫(huà)像、推薦算法、文本挖掘、人工神經(jīng)網(wǎng)絡(luò)等*實(shí)用、*需要了解的應(yīng)用的原理與實(shí)現(xiàn);
●大數(shù)據(jù)主流框架——介紹了主流的大數(shù)據(jù)框架(Hadoop、Spark和Cassandra);
●系統(tǒng)架構(gòu)與調(diào)優(yōu)——從速度與穩(wěn)定性方面給出調(diào)優(yōu)的一般性“內(nèi)功心法”;
●大數(shù)據(jù)價(jià)值與變現(xiàn)——從運(yùn)營(yíng)指標(biāo)、AB測(cè)試、大數(shù)據(jù)價(jià)值與變現(xiàn)場(chǎng)景多維度解讀。
為什么要寫(xiě)這本書(shū)
不知從何時(shí)開(kāi)始我們已周身沒(méi)入大數(shù)據(jù)時(shí)代的潮流,不知不覺(jué)被卷入了大數(shù)據(jù)時(shí)代。
無(wú)論是每天上網(wǎng)看網(wǎng)頁(yè)、聊QQ、聊微信,或者登錄銀行、網(wǎng)購(gòu)、買(mǎi)票,或者出行、投宿,甚至是出入任何公眾場(chǎng)合、駕車(chē)、用水用電……我們無(wú)時(shí)無(wú)刻不在生產(chǎn)著各種數(shù)據(jù)。而同時(shí)我們也在消費(fèi)著其他人生產(chǎn)的數(shù)據(jù),我們使用的眾多家電產(chǎn)品,每一個(gè)設(shè)計(jì)細(xì)節(jié)都融入了設(shè)計(jì)者對(duì)用戶(hù)體驗(yàn)數(shù)據(jù)的調(diào)查與分析;我們使用的每一部手機(jī)、每一臺(tái)電腦,每一個(gè)部件的產(chǎn)出都融入著多得無(wú)法想象的指標(biāo)數(shù)據(jù)控制下的生產(chǎn)與監(jiān)控;我們?cè)L問(wèn)的每一個(gè)網(wǎng)頁(yè)、每一個(gè)軟件,每一次享受到的貼心的產(chǎn)品改動(dòng)和服務(wù)的升級(jí),無(wú)不浸透著無(wú)數(shù)的數(shù)據(jù)匯集與精細(xì)的分析和反饋。這是一場(chǎng)慢慢到來(lái)的、貫穿所有產(chǎn)業(yè)的革命,這是一次潤(rùn)物細(xì)無(wú)聲的各行業(yè)精耕細(xì)作的開(kāi)端。
不管我們是不是愿意,不管我們有沒(méi)有意識(shí)到,我們現(xiàn)在已經(jīng)身處大數(shù)據(jù)時(shí)代的奇點(diǎn),而未來(lái)要迎接的是大數(shù)據(jù)奇點(diǎn)爆炸給我們帶來(lái)的沖擊力。我們需要力量來(lái)駕馭浪里的航船,我們需要乘風(fēng)破浪前進(jìn)的動(dòng)力。
在這一次遠(yuǎn)航中,我們不必?fù)?dān)心自己的能力水平無(wú)法感知數(shù)據(jù)這種磅礴之力的氣魄,不必?fù)?dān)心晦澀難懂的公式定理會(huì)讓我們感到阻力。
請(qǐng)相信我,這是一本通俗易懂的大數(shù)據(jù)圖書(shū),這是一本輕松愉悅的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的讀本,這是一本沒(méi)有門(mén)檻的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)手冊(cè)。讓我們一起揚(yáng)帆遠(yuǎn)航吧!
本書(shū)特色
從行為脈絡(luò)來(lái)看,本書(shū)基本上是從數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)指標(biāo)理解、數(shù)據(jù)模型、聚類(lèi)/分類(lèi)與機(jī)器學(xué)習(xí)、數(shù)據(jù)應(yīng)用、大數(shù)據(jù)框架補(bǔ)充知識(shí),以及擴(kuò)展討論這樣的角度來(lái)層層深入完成的。
這種方式會(huì)給讀者比較好的帶入感,讓大家——尤其是不擅長(zhǎng)數(shù)學(xué)的讀者降低對(duì)大數(shù)據(jù)與機(jī)器學(xué)習(xí)算法的恐懼感。如果讀者朋友對(duì)排列組合、統(tǒng)計(jì)分布這些基礎(chǔ)知識(shí)比較了解,完全可以考慮跳過(guò)這些部分直接去讀后面更感興趣的內(nèi)容。
為了調(diào)節(jié)閱讀氣氛,我們還嘗試加入了一些漫畫(huà)插圖。為了讓讀者朋友能夠更快地進(jìn)行實(shí)踐,我們幾乎在每一個(gè)算法講解后都配有Python或者SQL語(yǔ)言的實(shí)現(xiàn)部分。相信這些能夠幫助大家更快、更輕松地閱讀本書(shū)。
讀者對(duì)象
(1)對(duì)大數(shù)據(jù)感興趣但是完全不了解的技術(shù)人員。
。2)對(duì)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘比較感興趣的技術(shù)人員。
。3)大數(shù)據(jù)初級(jí)從業(yè)人員。
如何閱讀本書(shū)
本書(shū)一共分為18章。
第1章~第5章為入門(mén)所需基礎(chǔ)知識(shí)及對(duì)數(shù)據(jù)指標(biāo)運(yùn)營(yíng)的闡述。
第6章~第10章是對(duì)數(shù)據(jù)挖掘基礎(chǔ)知識(shí)與算法的介紹。
第11章~第18章為生產(chǎn)應(yīng)用與高級(jí)擴(kuò)展。
其中,第1章~第15章正文內(nèi)容,以及第17章、第18章的正文內(nèi)容由高揚(yáng)編寫(xiě)。
全書(shū)所有的Python代碼由衛(wèi)崢編寫(xiě)與補(bǔ)充整理。
第16章、附錄全部由尹會(huì)生編寫(xiě)。
全書(shū)所有的漫畫(huà)插畫(huà)由萬(wàn)娟創(chuàng)作完成。
勘誤和支持
由于水平有限,編寫(xiě)時(shí)間倉(cāng)促,書(shū)中難免會(huì)出現(xiàn)一些錯(cuò)誤或者不準(zhǔn)確的地方,懇請(qǐng)讀者批評(píng)指正。如果你有更多的寶貴意見(jiàn),歡迎掃描下方的二維碼,關(guān)注“奇點(diǎn)大數(shù)據(jù)”微信公眾號(hào)和我們進(jìn)行互動(dòng)討論。關(guān)注大數(shù)據(jù)尖端技術(shù)發(fā)展,關(guān)注“奇點(diǎn)大數(shù)據(jù)”。
同時(shí),你也可以通過(guò)郵箱77232517@qq.com聯(lián)系到我,期待能夠得到你的真摯反饋,在技術(shù)之路上互勉共進(jìn)。
致謝
特別感謝:萬(wàn)娟女士為本書(shū)做的漫畫(huà)插畫(huà)內(nèi)容。
萬(wàn)娟女士現(xiàn)任深圳星盤(pán)科技有限公司UI設(shè)計(jì)師,是我在多年工作中遇到過(guò)的最敬業(yè)的UI設(shè)計(jì)師之一,在2013年一起合作的過(guò)程中給我留下了非常深刻的印象。
她多次參加全國(guó)和國(guó)際藝術(shù)比賽,曾獲得全國(guó)青少年繪畫(huà)大賽銅獎(jiǎng),中國(guó)–新加坡國(guó)際青少年繪畫(huà)比賽優(yōu)秀獎(jiǎng),以及全國(guó)大學(xué)生工業(yè)設(shè)計(jì)大賽三等獎(jiǎng)。從小酷愛(ài)繪畫(huà),理想是開(kāi)一個(gè)屬于自己的畫(huà)室。
她給我留下的最深刻的印象用兩個(gè)詞可以描述:一個(gè)詞是“敬業(yè)”,不管是在過(guò)去共事期間的合作,還是在為本書(shū)創(chuàng)作插畫(huà)的過(guò)程中,為了保證進(jìn)度帶病堅(jiān)持創(chuàng)作,都讓我非常感動(dòng);另一個(gè)詞是“唯美”,不僅人長(zhǎng)得美,作品設(shè)計(jì)風(fēng)格也透出現(xiàn)代與時(shí)尚的氣息。
此外還要對(duì)所有支持和關(guān)心本書(shū)成書(shū)的各界朋友表示由衷的感謝:
衷心感謝北京郵電大學(xué)軟件學(xué)院楊談老師對(duì)本書(shū)的審校工作。
衷心感謝騰訊公司數(shù)據(jù)分析師彭瑤女士對(duì)本書(shū)的審校工作。
衷心感謝重慶工商大學(xué)黃輝老師、楊藝?yán)蠋煂?duì)本書(shū)的大力支持。
衷心感謝機(jī)械工業(yè)出版社華章公司對(duì)本書(shū)的支持與幫助。
衷心感謝“奇點(diǎn)大數(shù)據(jù)”微信群友對(duì)本書(shū)的關(guān)注與支持。
高揚(yáng)
高揚(yáng),金山軟件西山居資深大數(shù)據(jù)架構(gòu)師與大數(shù)據(jù)專(zhuān)家,有多年編程經(jīng)驗(yàn)(多年日本和澳洲工作經(jīng)驗(yàn))和多年大數(shù)據(jù)架構(gòu)設(shè)計(jì)與數(shù)據(jù)分析、處理經(jīng)驗(yàn),目前負(fù)責(zé)西山居的大數(shù)據(jù)產(chǎn)品市場(chǎng)戰(zhàn)略與產(chǎn)品戰(zhàn)略。專(zhuān)注于大數(shù)據(jù)系統(tǒng)架構(gòu)以及變現(xiàn)研究。擅長(zhǎng)數(shù)據(jù)挖掘、數(shù)據(jù)建模、關(guān)系型數(shù)據(jù)庫(kù)應(yīng)用以及大數(shù)據(jù)框架Hadoop、Spark、Cassandra、Prestodb等的應(yīng)用。負(fù)責(zé)西山居紫霞系統(tǒng)——大數(shù)據(jù)日志處理系統(tǒng)的系統(tǒng)架構(gòu)與設(shè)計(jì)工作。
衛(wèi)崢,西山居軟件架構(gòu)師,多年的軟件開(kāi)發(fā)和架構(gòu)經(jīng)驗(yàn),精通C/C++、Python、Golang、JavaScript等多門(mén)編程語(yǔ)言,近幾年專(zhuān)注于數(shù)據(jù)處理、機(jī)器學(xué)算法的研究、應(yīng)用與服務(wù)研發(fā)。曾在新浪網(wǎng)平臺(tái)架構(gòu)部負(fù)責(zé)音視頻轉(zhuǎn)碼平臺(tái)的架構(gòu)和研發(fā)工作,為新浪微博,新浪微盤(pán),秒拍等提供視頻在線觀看服務(wù)。51CTO講師。
尹會(huì)生,西山居高級(jí)系統(tǒng)工程師。曾任新浪研發(fā)中心技術(shù)經(jīng)理、北京尚觀科技高級(jí)講師。在新浪廣告、微博廣告、西山居大數(shù)據(jù)平臺(tái)架構(gòu)中擔(dān)任關(guān)鍵角色。擅長(zhǎng)企業(yè)集群解決方案和內(nèi)核調(diào)優(yōu)經(jīng)驗(yàn),并提供高性能和高可用性集群咨詢(xún)服務(wù)。近4年專(zhuān)注于Hadoop集群、Spark集群在推薦系統(tǒng)和BI相關(guān)領(lǐng)域的解決方案。
萬(wàn)娟,星盤(pán)科技有限公司UI設(shè)計(jì)師平面,對(duì)VI設(shè)計(jì)、包裝、海報(bào)設(shè)計(jì)等、商業(yè)插畫(huà)、App交互、網(wǎng)頁(yè)設(shè)計(jì)等有獨(dú)到認(rèn)識(shí)。多次參與智能家居和智能音箱等項(xiàng)目的UI設(shè)計(jì)。多次參加國(guó)際和國(guó)內(nèi)藝術(shù)和工業(yè)設(shè)計(jì)比賽,并獲獎(jiǎng)。從小酷愛(ài)繪畫(huà),理想是開(kāi)一個(gè)屬于自己的畫(huà)室。
第1章大數(shù)據(jù)產(chǎn)業(yè)1
1.1大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)狀1
1.2對(duì)大數(shù)據(jù)產(chǎn)業(yè)的理解2
1.3大數(shù)據(jù)人才3
1.3.1供需失衡3
1.3.2人才方向3
1.3.3環(huán)節(jié)和工具5
1.3.4門(mén)檻障礙6
1.4小結(jié)8
第2章步入數(shù)據(jù)之門(mén)9
2.1什么是數(shù)據(jù)9
2.2什么是信息10
2.3什么是算法12
2.4統(tǒng)計(jì)、概率和數(shù)據(jù)挖掘13
2.5什么是商業(yè)智能13
2.6小結(jié)14
第3章排列組合與古典概型15
3.1排列組合的概念16
3.1.1公平的決斷——扔硬幣16
3.1.2非古典概型17
3.2排列組合的應(yīng)用示例18
3.2.1雙色球彩票18
3.2.2購(gòu)車(chē)搖號(hào)20
3.2.3德州撲克21
3.3小結(jié)25
第4章統(tǒng)計(jì)與分布27
4.1加和值、平均值和標(biāo)準(zhǔn)差27
4.1.1加和值28
4.1.2平均值29
4.1.3標(biāo)準(zhǔn)差30
4.2加權(quán)均值32
4.2.1混合物定價(jià)32
4.2.2決策權(quán)衡34
4.3眾數(shù)、中位數(shù)35
4.3.1眾數(shù)36
4.3.2中位數(shù)37
4.4歐氏距離37
4.5曼哈頓距離39
4.6同比和環(huán)比41
4.7抽樣43
4.8高斯分布45
4.9泊松分布49
4.10伯努利分布52
4.11小結(jié)54
第5章指標(biāo)55
5.1什么是指標(biāo)55
5.2指標(biāo)化運(yùn)營(yíng)58
5.2.1指標(biāo)的選擇58
5.2.2指標(biāo)體系的構(gòu)建62
5.3小結(jié)63
第6章信息論64
6.1信息的定義64
6.2信息量65
6.2.1信息量的計(jì)算65
6.2.2信息量的理解66
6.3香農(nóng)公式68
6.4熵70
6.4.1熱力熵70
6.4.2信息熵72
6.5小結(jié)75
第7章多維向量空間76
7.1向量和維度76
7.1.1信息冗余77
7.1.2維度79
7.2矩陣和矩陣計(jì)算80
7.3數(shù)據(jù)立方體83
7.4上卷和下鉆85
7.5小結(jié)86
第8章回歸87
8.1線性回歸87
8.2擬合88
8.3殘差分析94
8.4過(guò)擬合99
8.5欠擬合100
8.6曲線擬合轉(zhuǎn)化為線性擬合101
8.7小結(jié)104
第9章聚類(lèi)105
9.1K-Means算法106
9.2有趣模式109
9.3孤立點(diǎn)110
9.4層次聚類(lèi)110
9.5密度聚類(lèi)113
9.6聚類(lèi)評(píng)估116
9.6.1聚類(lèi)趨勢(shì)117
9.6.2簇?cái)?shù)確定119
9.6.3測(cè)定聚類(lèi)質(zhì)量121
9.7小結(jié)124
第10章分類(lèi)125
10.1樸素貝葉斯126
10.1.1天氣的預(yù)測(cè)128
10.1.2疾病的預(yù)測(cè)130
10.1.3小結(jié)132
10.2決策樹(shù)歸納133
10.2.1樣本收集135
10.2.2信息增益136
10.2.3連續(xù)型變量137
10.3隨機(jī)森林140
10.4隱馬爾可夫模型141
10.4.1維特比算法144
10.4.2前向算法151
10.5支持向量機(jī)SVM154
10.5.1年齡和好壞154
10.5.2“下刀”不容易157
10.5.3距離有多遠(yuǎn)158
10.5.4N維度空間中的距離159
10.5.5超平面怎么畫(huà)160
10.5.6分不開(kāi)怎么辦160
10.5.7示例163
10.5.8小結(jié)164
10.6遺傳算法164
10.6.1進(jìn)化過(guò)程164
10.6.2算法過(guò)程165
10.6.3背包問(wèn)題165
10.6.4極大值問(wèn)題173
10.7小結(jié)181
第11章關(guān)聯(lián)分析183
11.1頻繁模式和Apriori算法184
11.1.1頻繁模式184
11.1.2支持度和置信度185
11.1.3經(jīng)典的Apriori算法187
11.1.4求出所有頻繁模式190
11.2關(guān)聯(lián)分析與相關(guān)性分析192
11.3稀有模式和負(fù)模式193
11.4小結(jié)194
第12章用戶(hù)畫(huà)像195
12.1標(biāo)簽195
12.2畫(huà)像的方法196
12.2.1結(jié)構(gòu)化標(biāo)簽196
12.2.2非結(jié)構(gòu)化標(biāo)簽198
12.3利用用戶(hù)畫(huà)像203
12.3.1割裂型用戶(hù)畫(huà)像203
12.3.2緊密型用戶(hù)畫(huà)像204
12.3.3到底“像不像”204
12.4小結(jié)205
第13章推薦算法206
13.1推薦思路206
13.1.1貝葉斯分類(lèi)206
13.1.2利用搜索記錄207
13.2User-basedCF209
13.3Item-basedCF211
13.4優(yōu)化問(wèn)題215
13.5小結(jié)217
第14章文本挖掘218
14.1文本挖掘的領(lǐng)域218
14.2文本分類(lèi)219
14.2.1Rocchio算法220
14.2.2樸素貝葉斯算法223
14.2.3K-近鄰算法225
14.2.4支持向量機(jī)SVM算法226
14.3小結(jié)227
第15章人工神經(jīng)網(wǎng)絡(luò)228
15.1人的神經(jīng)網(wǎng)絡(luò)228
15.1.1神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)229
15.1.2結(jié)構(gòu)模擬230
15.1.3訓(xùn)練與工作231
15.2FANN庫(kù)簡(jiǎn)介233
15.3常見(jiàn)的神經(jīng)網(wǎng)絡(luò)235
15.4BP神經(jīng)網(wǎng)絡(luò)235
15.4.1結(jié)構(gòu)和原理236
15.4.2訓(xùn)練過(guò)程237
15.4.3過(guò)程解釋240
15.4.4示例240
15.5玻爾茲曼機(jī)244
15.5.1退火模型244
15.5.2玻爾茲曼機(jī)245
15.6卷積神經(jīng)網(wǎng)絡(luò)247
15.6.1卷積248
15.6.2圖像識(shí)別249
15.7深度學(xué)習(xí)255
15.8小結(jié)256
第16章大數(shù)據(jù)框架簡(jiǎn)介257
16.1著名的大數(shù)據(jù)框架257
16.2Hadoop框架258
16.2.1MapReduce原理259
16.2.2安裝Hadoop261
16.2.3經(jīng)典的WordCount264
16.3Spark框架269
16.3.1安裝Spark270
16.3.2使用Scala計(jì)算WordCount271
16.4分布式列存儲(chǔ)框架272
16.5PrestoDB——神奇的CLI273
16.5.1Presto為什么那么快273
16.5.2安裝Presto274
16.6小結(jié)277
第17章系統(tǒng)架構(gòu)和調(diào)優(yōu)278
17.1速度——資源的配置278
17.1.1思路一:邏輯層面的優(yōu)化279
17.1.2思路二:容器層面的優(yōu)化279
17.1.3思路三:存儲(chǔ)結(jié)構(gòu)層面的優(yōu)化280
17.1.4思路四:環(huán)節(jié)層面的優(yōu)化280
17.1.5資源不足281
17.2穩(wěn)定——資源的可用282
17.2.1借助云服務(wù)282
17.2.2鎖分散282
17.2.3排隊(duì)283
17.2.4謹(jǐn)防“雪崩”283
17.3小結(jié)285
第18章數(shù)據(jù)解讀與數(shù)據(jù)的價(jià)值286
18.1運(yùn)營(yíng)指標(biāo)286
18.1.1互聯(lián)網(wǎng)類(lèi)型公司常用指標(biāo)287
18.1.2注意事項(xiàng)288
18.2AB測(cè)試289
18.2.1網(wǎng)頁(yè)測(cè)試290
18.2.2方案測(cè)試290
18.2.3灰度發(fā)布292
18.2.4注意事項(xiàng)293
18.3數(shù)據(jù)可視化295
18.3.1圖表295
18.3.2表格299
18.4多維度——大數(shù)據(jù)的靈魂299
18.4.1多大算大299
18.4.2大數(shù)據(jù)網(wǎng)絡(luò)300
18.4.3去中心化才能活躍301
18.4.4數(shù)據(jù)會(huì)過(guò)剩嗎302
18.5數(shù)據(jù)變現(xiàn)的場(chǎng)景303
18.5.1數(shù)據(jù)價(jià)值的衡量的討論303
18.5.2場(chǎng)景1:征信數(shù)據(jù)307
18.5.3場(chǎng)景2:宏觀數(shù)據(jù)308
18.5.4場(chǎng)景3:畫(huà)像數(shù)據(jù)309
18.6小結(jié)310
附錄AVMwareWorkstation的安裝311
附錄BCentOS虛擬機(jī)的安裝方法314
附錄CPython語(yǔ)言簡(jiǎn)介318
附錄DScikit-learn庫(kù)簡(jiǎn)介323
附錄EFANNforPython安裝324
附錄F群眾眼中的大數(shù)據(jù)325
寫(xiě)作花絮327
參考文獻(xiàn)329