在數(shù)據(jù)為主導(dǎo)的今天,對于一種已經(jīng)成型的模型,“怎么用”通常不是問題,用個軟件或者編幾行程序就能得到結(jié)果了,問題一般都出在模型“什么時候用”和“用完了,然后呢”!稊(shù)據(jù)分析師養(yǎng)成寶典》就集中討論后面兩件事情。
《數(shù)據(jù)分析師養(yǎng)成寶典》共27章,分為業(yè)務(wù)理解篇(第1~4章)、指標(biāo)設(shè)計篇(第5~7章)、數(shù)據(jù)建模篇(第8~16章)、價值展現(xiàn)篇(第17~19章)和實戰(zhàn)進階篇(第20~27章)。業(yè)務(wù)理解篇的目的是讓讀者建立正確的思維觀,理解數(shù)據(jù),熟悉業(yè)務(wù);指標(biāo)設(shè)計篇學(xué)習(xí)把數(shù)據(jù)轉(zhuǎn)換為專家數(shù)據(jù)的一些技巧;數(shù)據(jù)建模篇以R語言為計算平臺實施數(shù)據(jù)分析全過程;價值展現(xiàn)篇主要討論如何撰寫有價值的數(shù)據(jù)分析報告;實戰(zhàn)進階篇通過對8個經(jīng)典案例的分析,使讀者能夠把學(xué)到的思維方法、實施工具應(yīng)用到解決實際問題中,把數(shù)據(jù)變成價值。
本書可供數(shù)據(jù)科學(xué)相關(guān)技術(shù)人員閱讀,也可作為高等院校數(shù)據(jù)科學(xué)相關(guān)專業(yè)的教材或培訓(xùn)教材,以及數(shù)據(jù)分析愛好者的參考讀物。
只要學(xué)會數(shù)據(jù)思維,數(shù)據(jù)分析任你擺布
只要有想法肯動腦,有無基礎(chǔ)皆可學(xué)會
只要懂得指標(biāo)設(shè)計,項目落地信手捏來
隨著大數(shù)據(jù)時代的到來,企業(yè)管理者對數(shù)據(jù)價值的重視程度越來越高,他們渴望從企業(yè)內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)中獲得更多的信息財富,并以此為依據(jù),幫助自己做出正確的戰(zhàn)略決策。 如今在數(shù)據(jù)分析師的崗位上,大多數(shù)員工都是非統(tǒng)計專業(yè)出身,遠(yuǎn)遠(yuǎn)達(dá)不到專業(yè)數(shù)據(jù)分析要求,如何能夠快速找到突破口,幫助對數(shù)據(jù)分析有興趣的人員全面掌握數(shù)據(jù)分析技巧,基于此,《數(shù)據(jù)分析師養(yǎng)成寶典旨》在幫助讀者解決如下困惑:學(xué)習(xí)前的困惑學(xué)習(xí)后將收獲什么零基礎(chǔ)入門數(shù)據(jù)分析領(lǐng)域只要有數(shù)據(jù)思維,數(shù)據(jù)分析任你擺布不會編程只要有想法,R語言幫你搞定對行業(yè)業(yè)務(wù)流程不了解項目實際操作從業(yè)務(wù)思路到落地技能全掌握不會寫數(shù)據(jù)分析報告掌握了前三項技能,寫數(shù)據(jù)分析報告是小意思
全書分為5篇:業(yè)務(wù)理解篇、指標(biāo)設(shè)計篇、數(shù)據(jù)建模篇、價值展現(xiàn)篇和實戰(zhàn)進階篇,從數(shù)據(jù)到價值的演化如下圖所示。
業(yè)務(wù)數(shù)據(jù)化是把數(shù)據(jù)變?yōu)閮r值的先決條件,目的是建立正確的思維觀,理解數(shù)據(jù),熟悉業(yè)務(wù);對數(shù)據(jù)描述、概括和分析是把數(shù)據(jù)變?yōu)閮r值的核心,是一個數(shù)據(jù)分析項目的實施過程;數(shù)據(jù)分析報告是數(shù)據(jù)價值的最終形態(tài),好的數(shù)據(jù)分析報告是企業(yè)決策的重要依據(jù),專業(yè)的數(shù)據(jù)分析報告能體現(xiàn)你的職場價值。
如果把整個數(shù)據(jù)分析過程比作開飯店,業(yè)務(wù)數(shù)據(jù)化相當(dāng)于菜譜,雖然是紙上談兵,但也是不可缺少的一環(huán);描述、概括和分析相當(dāng)于燒菜的廚藝,這是開飯店的先決條件,菜燒得好可以品嘗,不能保證盈利;撰寫數(shù)據(jù)分析報告相當(dāng)于開飯店的理由,關(guān)鍵是說清楚如何讓飯店盈利?盈利多少?菜譜、廚藝、開飯店理由三者相輔相成,缺少任何一環(huán),盈利的目標(biāo)都難以達(dá)成。
本書的特點如下:
1落地實用
全書分為5篇,共27章,每一章的內(nèi)容都從實際業(yè)務(wù)出發(fā),書中所提供的思維方法、分析框架、數(shù)據(jù)指標(biāo)設(shè)計與操作步驟都可以直接運用到工作當(dāng)中。
2重道輕術(shù)
“術(shù)”是數(shù)據(jù)分析方法和工具,“道”強調(diào)了如何對數(shù)據(jù)敏感,如何把數(shù)據(jù)分析工作融入商業(yè)思考,彌補許多人只懂理論脫離實踐的不足。
3零距離接觸行業(yè)前沿
本書以R語言為計算平臺,無論你是什么專業(yè),無論你是否有編程基礎(chǔ),無論你是否學(xué)過統(tǒng)計,要想成為一名數(shù)據(jù)分析師,本書能幫到你。
4體系完整
近年來,數(shù)據(jù)分析師可謂是大數(shù)據(jù)時代最熱門的職業(yè),相關(guān)的資料五花八門,讓讀者無所適從。從學(xué)科體系來看,無非包括三個層次:理論、工具和技巧。但由于數(shù)據(jù)分析的特殊性,依賴于思維和業(yè)務(wù),所以,市場上成體系的書籍并不多見,大多是講理論和工具,本書試圖在數(shù)據(jù)分析完整的體系上做些探索。
在本書的編寫過程,得到了許多人的支持,再次表示感謝:
感謝南通大學(xué)-南通智能信息技術(shù)聯(lián)合研究中心給予的資金資助。
感謝硅湖職業(yè)技術(shù)學(xué)院在培訓(xùn)、實驗方面所給予的支持。
感謝南通大學(xué)教材建設(shè)資金資助。
感謝我的學(xué)生沈佳杰、謝璐、胡海濤、姚澤峰、周春瑜、孫麗麗、楊琴和趙麗敏在資料整理方面所做的貢獻。
其次,感謝我的妻子和兒女們,正是你們的鼓勵和支持,我才會走到今天,你們的鼓勵和陪伴永遠(yuǎn)是我前進的動力。
最后,特別要感謝我的母親和已故的父親,感謝你們的養(yǎng)育之恩。僅以此書獻給健在的母親,希望母親健康,健康,更健康。
數(shù)據(jù)分析領(lǐng)域發(fā)展迅猛,對許多問題作者并未做深入研究,一些有價值的新內(nèi)容也來不及收入本書。加上作者知識水平和實踐經(jīng)驗有限,書中難免存在不足之處,敬請讀者批評指正。
如何使用本書
第0章說在前面的話
0.1大數(shù)據(jù)分析案例
0.2數(shù)據(jù)分析
0.2.1數(shù)據(jù)分析不同于信息化系統(tǒng)
0.2.2數(shù)據(jù)分析不同于統(tǒng)計分析
0.2.3數(shù)據(jù)分析不同于數(shù)據(jù)挖掘
0.2.4數(shù)據(jù)分析不同于數(shù)據(jù)管理
0.2.5數(shù)據(jù)分析不同于商業(yè)智能
0.2.6數(shù)據(jù)分析的內(nèi)容
0.3數(shù)據(jù)分析師
0.3.1什么是數(shù)據(jù)分析師
0.3.2基本要求
0.4數(shù)據(jù)分析過程
0.4.1業(yè)務(wù)理解
0.4.2指標(biāo)設(shè)計
0.4.3數(shù)據(jù)建模
0.4.4分析報告
業(yè)務(wù)理解篇
第1章正確的思維觀
1.1數(shù)據(jù)思維
1.2統(tǒng)計思維
1.2.1統(tǒng)計學(xué)
1.2.2描述
1.2.3概括
1.2.4分析
1.3邏輯思維
1.3.1上取/下鉆思維
1.3.2求同/求異思維
1.3.3抽離/聯(lián)合思維
1.3.4離開/接近思維
1.3.5層次思維
第2章理解數(shù)據(jù)
2.1數(shù)據(jù)是什么
2.2數(shù)據(jù)所依存的背景
2.3數(shù)據(jù)維度
2.4數(shù)據(jù)敏感
2.5數(shù)據(jù)質(zhì)量
2.6理解數(shù)據(jù)要注意的問題
2.6.1不要對完美數(shù)據(jù)的盲目執(zhí)著
2.6.2小樣本數(shù)據(jù)也能做數(shù)據(jù)分析
第3章理解業(yè)務(wù)
3.1全局了解——業(yè)務(wù)模型
3.2動態(tài)了解——流程模型
3.3靜態(tài)了解——數(shù)據(jù)模型
3.4動靜結(jié)合——關(guān)鍵業(yè)務(wù)分析
3.5數(shù)據(jù)業(yè)務(wù)化
第4章理解用戶
4.1由粗到細(xì),從宏觀到微觀
4.2由少到多,收集不同層次的需求
4.3數(shù)據(jù)分析師對理解用戶需求的思考
4.3.1如何用需求分析明確產(chǎn)品目標(biāo)?
4.3.2數(shù)據(jù)分析師理解用戶需求應(yīng)該具備的基本素養(yǎng)
4.3.3如何根據(jù)用戶行為去驅(qū)動產(chǎn)品?
指標(biāo)設(shè)計篇
第5章數(shù)據(jù)準(zhǔn)備
5.1數(shù)據(jù)探索
5.1.1缺失值分析與處理
5.1.2異常值分析與處理
5.1.3不一致數(shù)據(jù)分析
5.2數(shù)據(jù)整理
5.2.1規(guī)范化
5.2.2數(shù)據(jù)選擇
5.2.3數(shù)據(jù)歸約
5.2.4數(shù)據(jù)變換
5.3數(shù)據(jù)集成
5.3.1通過向量化重構(gòu)數(shù)據(jù)
5.3.2為數(shù)據(jù)添加新變量
5.3.3數(shù)據(jù)透視表
5.3.4列聯(lián)表
5.3.5數(shù)據(jù)整合
5.3.6分組計算
第6章數(shù)據(jù)指標(biāo)
6.1指標(biāo)和維度
6.2特征工程
6.2.1特征工程作用
6.2.2特征設(shè)計
6.2.3特征選擇
6.2.4特征提取
6.3指標(biāo)設(shè)計基本方法
6.3.1生成用于判別的變量
6.3.2生成離散變量
6.3.3業(yè)務(wù)標(biāo)簽化
6.4典型業(yè)務(wù)指標(biāo)設(shè)計
6.4.1零售店鋪數(shù)據(jù)分析指標(biāo)
6.4.2電商數(shù)據(jù)分析指標(biāo)
第7章數(shù)據(jù)認(rèn)知
7.1認(rèn)知數(shù)據(jù)的平均水平和波動情況
7.2認(rèn)知數(shù)據(jù)的分布
7.3利用相關(guān)系數(shù)理解數(shù)據(jù)之間的關(guān)系
7.4通過對比認(rèn)知數(shù)據(jù)
7.5通過多維交叉來深入認(rèn)知數(shù)據(jù)
7.6周期性分析
7.7貢獻度分析
7.8因子分析
數(shù)據(jù)建模篇
第8章神經(jīng)網(wǎng)絡(luò)
8.1模型原理
8.2進階指導(dǎo)
第9章回歸分析
9.1模型原理
9.2進階指導(dǎo)
第10章聚類分析
10.1模型原理
10.2進階指導(dǎo)
第11章關(guān)聯(lián)分析
11.1模型原理
11.2進階指導(dǎo)
第12章決策樹
12.1模型原理
12.2進階指導(dǎo)
第13章隨機森林決策樹
13.1模型原理
13.2進階指導(dǎo)
第14章自適應(yīng)選擇決策樹
14.1模型原理
14.2進階指導(dǎo)
第15章SVM
15.1模型原理
15.2進階指導(dǎo)
第16章建模指導(dǎo)
16.1建模要注意的問題
16.2R語言中建模常用包
16.3數(shù)據(jù)分析模型的原理和應(yīng)用場景
價值展現(xiàn)篇
第17章如何寫好數(shù)據(jù)分析報告
17.1數(shù)據(jù)的價值
17.1.1收入
17.1.2支出
17.1.3風(fēng)險
17.1.4參照系
17.2講故事
17.2.1數(shù)據(jù)講故事的四大要點
17.2.2阿里指數(shù)能告訴你……
17.3如何寫報告
17.3.1寫作原則
17.3.2報告的類型和分析能力
17.3.3報告的細(xì)節(jié)
17.4報告的結(jié)構(gòu)
17.4.1標(biāo)題
17.4.2背景與目標(biāo)
17.4.3項目說明
17.4.4分析思路
17.4.5分析主體
17.4.6總結(jié)與建議
17.5文字表達(dá)
17.5.1突出關(guān)鍵信息
17.5.2避免啰嗦的表達(dá)
17.5.3站在讀者角度
17.5.4不帶主觀臆斷
17.6分析過程
17.6.1樣本選擇
17.6.2方法實施
17.7注意事項
第18章數(shù)據(jù)可視化
18.1什么是數(shù)據(jù)可視化
18.2數(shù)據(jù)可視化的作用
18.3可視化建議
18.4科學(xué)與藝術(shù)的結(jié)合
18.5可視化細(xì)節(jié)
18.6R語言繪圖
18.6.1低水平繪圖命令
18.6.2高水平繪圖命令
18.6.3交互式繪圖命令
18.7圖形適用場景
第19章數(shù)據(jù)分析報告制作工具
19.1knitr包
19.1.1安裝knitr
19.1.2Markdown語法
19.1.3報告制作
19.2rmarkdown包
19.2.1創(chuàng)建R Markdown
19.2.2R Markdown文本處理
19.2.3插入代碼塊
19.2.4結(jié)果的輸出
實戰(zhàn)進階篇
第20章校園網(wǎng)中推薦者的推薦價值分析
20.1業(yè)務(wù)理解
20.2指標(biāo)設(shè)計
20.3描述性分析
20.4模型分析
20.5分析報告
第21章上市企業(yè)財務(wù)報表分析與ST預(yù)測
21.1業(yè)務(wù)理解
21.2指標(biāo)設(shè)計
21.3描述性分析
21.4模型分析
21.5分析報告
第22章為什么銷售會減少——驗證性分析
22.1業(yè)務(wù)理解
22.2指標(biāo)設(shè)計
22.3描述性分析
22.4結(jié)論與建議
第23章什么樣的顧客會選擇離開——探索性分析
23.1業(yè)務(wù)理解
23.2指標(biāo)設(shè)計
23.3描述性分析
23.4結(jié)論與建議
第24章哪種廣告的效果更好——假設(shè)檢驗
24.1業(yè)務(wù)理解
24.2數(shù)據(jù)建模
24.3模型分析
24.4結(jié)論與建議
第25章如何獲得更多的用戶——多元回歸分析
25.1業(yè)務(wù)理解
25.2數(shù)據(jù)建模
25.3模型分析
25.4結(jié)論與建議
第26章航空公司顧客價值分析——聚類
26.1業(yè)務(wù)理解
26.2指標(biāo)設(shè)計
26.3模型構(gòu)建
26.4模型評價
26.5結(jié)論與建議
第27章竊電用戶行為分析——決策樹
27.1業(yè)務(wù)理解
27.2簡單指標(biāo)設(shè)計
27.3描述性分析
27.4復(fù)雜指標(biāo)設(shè)計