本書圍繞經(jīng)典的統(tǒng)計方法與 R 語言工具,從基本的統(tǒng)計描述分析方法出發(fā),講解了參數(shù)估計與假設檢驗、線性回歸、邏輯回歸、降維分析方法,每一章重點介紹一種經(jīng)典方法或統(tǒng)計模型,對其基本定義、模型形式、統(tǒng)計方法的推導與解讀等都給出了細致的講解。此外,為了將理論與實踐緊密結(jié)合,本書每一章均提供了不同業(yè)務場景下的R語言編程實例,幫助讀者練習鞏固。本書適合相關學科本科生及研究生,以及對數(shù)據(jù)分析及建模感興趣的讀者。
朱雪寧,復旦大學大數(shù)據(jù)學院副教授。2017年獲得北京大學光華管理學院商務統(tǒng)計與經(jīng)濟計量系博士學位,入選2019年度上海市青年科技英才揚帆計劃,主持并參與多項國家自然科學基金。主要研究領域為網(wǎng)絡數(shù)據(jù)分析及商務統(tǒng)計應用等,在國內(nèi)外期刊發(fā)表論文二十余篇,著有《R語言:從數(shù)據(jù)思維到數(shù)據(jù)實戰(zhàn)》。
任怡萌,倫敦政治經(jīng)濟學院博士
張桂維,復旦大學大數(shù)據(jù)學院碩士
米汶權(quán),復旦大學大數(shù)據(jù)學院碩士
統(tǒng)計分析與R語言 1
1.1統(tǒng)計分析簡介 1
1.1.1了解數(shù)據(jù)及業(yè)務問題 002
1.1.2數(shù)據(jù)清洗與預處理 003
1.1.3數(shù)據(jù)描述及探索性分析 003
1.1.4模型構(gòu)建及解讀 004
1.2 R語言簡介 006
1.2.1為何要使用R語言 006
1.2.2 R語言的下載與安裝 007
1.2.3 R語言的使用 010
1.2.4工具包 014
1.3本章小結(jié) 015
1.4本章習題 016
R 語言中的數(shù)據(jù)管理及預處理
2.1基本數(shù)據(jù)類型 019
2.1.1數(shù)值型 019
2.1.2字符型 020
2.1.3邏輯型 020
2.1.4因子型 021
2.1.5時間型 022
2.2 數(shù)據(jù)結(jié)構(gòu) 022
2.2.1向量 022
2.2.2矩陣 028
2.2.3數(shù)組 031
2.2.4數(shù)據(jù)框 033
2.2.5列表 036
2.3 數(shù)據(jù)的讀入及寫出 042
2.3.1直接輸入數(shù)據(jù) 042
2.3.2從帶分隔符的文本文件中導入數(shù)據(jù) 042
2.3.3導入Excel 數(shù)據(jù) 044
2.3.4逐行讀入數(shù)據(jù) 044
2.3.5數(shù)據(jù)的寫出 045
2.4 數(shù)據(jù)集管理及預處理 046
2.4.1了解數(shù)據(jù)概況 047
2.4.2變量類型轉(zhuǎn)換 048
2.4.3時間型數(shù)據(jù)的操作 050
2.4.4數(shù)據(jù)集合并 051
2.4.5數(shù)據(jù)缺失、異常 052
2.5本章小結(jié) 053
2.6本章習題 053
基本統(tǒng)計分析 54
3.1基本描述統(tǒng)計量 056
3.1.1頻數(shù)統(tǒng)計 056
3.1.2均值 057
3.1.3分位數(shù) 057
3.1.4方差、標準差 058
3.1.5協(xié)方差與相關系數(shù) 059
3.1.6最大值、最小值 061
3.1.7峰度和偏度 062
3.2匯總分析 063
3.2.1交叉列聯(lián)表 063
3.2.2描述統(tǒng)計量的分組統(tǒng)計 065
3.3本章小結(jié) 066
3.4本章習題 067
數(shù)據(jù)描述與可視化 68
4.1統(tǒng)計表格 070
4.1.1變量說明表 070
4.1.2分組統(tǒng)計表 071
4.2數(shù)據(jù)可視化基礎 072
4.2.1統(tǒng)計圖形 072
4.2.2柱狀圖 073
4.2.3餅圖 076
4.2.4直方圖 077
4.2.5折線圖 078
4.2.6箱線圖 079
4.2.7散點圖 081
4.2.8相關系數(shù)圖 083
4.3數(shù)據(jù)可視化進階 084
4.3.1ggplot2 包 084
4.3.2交互可視化 090
4.4本章小結(jié) 094
4.5本章習題 094
參數(shù)估計與假設檢驗 96
5.1總體、樣本和樣本量 099
5.1.1總體 099
5.1.2樣本 100
5.1.3統(tǒng)計量 100
5.2參數(shù)估計 101
5.2.1矩估計 101
5.2.2最大似然估計 102
5.2.3區(qū)間估計 104
5.3假設檢驗 109
5.3.1假設檢驗的基本步驟 109
5.3.2假設檢驗的p 值 112
5.3.3假設檢驗問題的基本類型 114
5.3.4正態(tài)總體的假設檢驗 115
5.4單因素方差分析 123
5.4.1單因素方差分析的基本思路
5.4.2實例分析 125
5.5本章小結(jié) 127
5.6本章習題 128
線性回歸 129
6.1模型形式 133
6.2模型理解 134
6.2.1回歸系數(shù)的理解 134
6.2.2定性變量轉(zhuǎn)換及回歸系數(shù)理解 135
6.2.3交互項的解讀 136
6.2.4σ2 的理解 136
6.3基本假定 136
6.4回歸參數(shù)的估計 138
6.4.1普通最小二乘估計 138
6.4.2最大似然估計 139
6.5假設檢驗 139
6.5.1回歸系數(shù)的t 檢驗 140
6.5.2回歸方程的F 檢驗 140
6.6模型評價 141
6.7回歸診斷 141
6.7.1異方差 142
6.7.2強影響點 143
6.7.3多重共線性 143
6.7.4正態(tài)性 144
6.8變量選擇 144
6.8.1逐步回歸法 144
6.8.2信息準則 145
6.9模型實現(xiàn) 146
6.9.1 R語言中的基本函數(shù) 146
6.9.2 實例分析 147
6.10小結(jié) 154
6.11本章習題 154
邏輯回歸 155
7.1模型形式 159
7.2模型估計 160
7.2.1參數(shù)估計 160
7.3模型評價 161
7.3.1準確率、精確率及召回率 162
7.3.2ROC 曲線和AUC值 163
7.4實例分析 164
7.5本章小結(jié) 167
7.6本章習題 167
降維分析 169
8.1主成分分析 172
8.1.1主成分分析原理 172
8.1.2主成分個數(shù)選擇 174
8.1.3樣本的主成分及主成分得分 175
8.1.4R語言中的主成分分析 176
8.2 因子分析 180
8.2.1 正交因子模型 180
8.2.2 模型估計 181
8.2.3因子得分 187
8.2.4因子分析和主成分分析的異同
8.2因子分析 180
8.2.1正交因子模型 180
8.2.2模型估計 181
8.3小結(jié) 190
8.4本章習題 191