前言
如今,從語(yǔ)音助手、人臉識(shí)別、以圖搜車、無人駕駛、城市大腦,到普適計(jì)算、霧計(jì)算、單粒度治理、量子思維等技術(shù)、方法、應(yīng)用已成為社會(huì)發(fā)展的新動(dòng)能。數(shù)據(jù)自古有之,然而(移動(dòng))互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)的普及為我們累積了多維度、細(xì)粒度,以及來自不同視角的數(shù)據(jù)。數(shù)據(jù)資源被廣泛應(yīng)用于人類社會(huì)生產(chǎn)、生活、科研、治理等的方方面面,成為并列于資本、勞動(dòng)和自然資源的新的生產(chǎn)資料,對(duì)世界的政治、經(jīng)濟(jì)、文化、科技產(chǎn)生了深刻的影響。這是大數(shù)據(jù)這個(gè)嶄新時(shí)代為人類社會(huì)呈上的新禮物,也是人類文明進(jìn)化道路上開出的鮮艷花朵。
阿里巴巴、騰訊、臉書(Facebook)、今日頭條、亞馬遜(Amazon)、百度、谷歌(Google)等世界領(lǐng)先的公司正在應(yīng)用這些數(shù)據(jù)改造我們的生活與工作模式,商湯、小米、寒武紀(jì)、波士頓動(dòng)力(Boston Dynamic)、億嘉和、科沃斯、谷歌語(yǔ)音助手(Duplex)等智能代理與智能對(duì)象正改變著我們社會(huì)的結(jié)構(gòu),“人”“智”“物”的融合正在加速。乃至未來戰(zhàn)場(chǎng)、貨幣形態(tài)、大國(guó)爭(zhēng)端,都隨著大數(shù)據(jù)的深入應(yīng)用在發(fā)生巨變。2015年,黨和國(guó)家正式提出“國(guó)家大數(shù)據(jù)戰(zhàn)略”,先后出臺(tái)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020)》等綱領(lǐng)性文件; 2017年國(guó)務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,人工智能正式上升為國(guó)家戰(zhàn)略。
新興技術(shù)賦能、賦權(quán)、賦值(價(jià)值)的同時(shí),也沖擊著我們現(xiàn)成的思維方式,正引發(fā)“新觀念的產(chǎn)生、新模式的出現(xiàn)、新思維的塑造、新治理的構(gòu)建”。正如涂子沛先生所言,數(shù)據(jù)帶來了“一種新文明的興起”。因?yàn),?shù)據(jù)讓人類歷史上一些精細(xì)的、微妙的、隱形的,甚至曾經(jīng)難以捕捉表述的關(guān)系和知識(shí),在今天都變?yōu)轱@性的關(guān)系和知識(shí),清清楚楚地為我們所用。數(shù)據(jù)為國(guó)家治理提供了新的工具和手段,越來越多的個(gè)人行為被記錄,每一輛車或者每一個(gè)物體都可以被追蹤,我們的社會(huì)呈現(xiàn)出越來越清晰的紋理。大量的事實(shí)得以還原再現(xiàn),我們的僥幸心理得到了抑制,人性的幽暗之處得以光明,我們正邁向一個(gè)更加文明、安全的時(shí)代。
數(shù)據(jù)的價(jià)值得到了空前的關(guān)注,然而在實(shí)踐中還存在很多誤區(qū),也屢屢出現(xiàn)“奇葩”的故事,例如大數(shù)據(jù)殺熟(非人所愿)、谷歌無人駕駛汽車事故、AlphaGo輸棋、Facebook風(fēng)波、IBM Watson項(xiàng)目的失敗等。這些故事的背后都反映出我們?cè)凇八季S”層面的某種偏誤,以為大數(shù)據(jù)就是全數(shù)據(jù),以為智能可戰(zhàn)勝智慧,以為數(shù)據(jù)強(qiáng)就合乎倫理,以為科技可以代替人類等,也對(duì)數(shù)據(jù)的開發(fā)利用提出了反思。
時(shí)代的召喚,作為身在時(shí)代洪流中的我們,如何從“看戲”到“入戲”?為此,本書由淺入深地講述了數(shù)據(jù)思維的產(chǎn)生、原理與模式,并介紹了數(shù)據(jù)思維指導(dǎo)下的現(xiàn)代數(shù)據(jù)管理流程以及數(shù)據(jù)思維應(yīng)用實(shí)例,嘗試幫助讀者理解數(shù)據(jù)的本質(zhì),逐步培養(yǎng)用數(shù)據(jù)去觀察事物、思考問題、分析問題、解決問題的行為模式。例如,針對(duì)企業(yè)、組織有數(shù)據(jù)而無“大數(shù)據(jù)”的問題提出革新統(tǒng)計(jì)指標(biāo)體系的思路,從而革新組織的數(shù)據(jù)采集工具; 針對(duì)沒有(大)數(shù)據(jù)的困惑,本書提出數(shù)據(jù)生產(chǎn)的思維; 針對(duì)組織數(shù)字化轉(zhuǎn)型的困境,建議從“數(shù)字孿生”著手技術(shù)創(chuàng)新; 針對(duì)日益增多的“大數(shù)據(jù)之殤”,建議研究“數(shù)據(jù)行為”,如此等等,幫助讀者從思維層面展開訓(xùn)練,改變思考問題的模式與方式。
本書共有12章,可分為理論部分(第1~4章)、方法實(shí)訓(xùn)部分(第5~11章)與應(yīng)用實(shí)踐部分(第12章)。本書的編著得到了楊金龍、趙思雨、魏暢、劉露、楊巳煜、韓磊、路伯言、司文峰、劉建霞等多位博士與碩士研究生的參與,得到了南京大學(xué)雙一流“百層次”教育改革基金、南京大學(xué)信息管理學(xué)院“精品課程”建設(shè)項(xiàng)目,以及國(guó)家“雙創(chuàng)示范基地”項(xiàng)目的支持。本書的撰寫還得到了領(lǐng)域內(nèi)多位專家學(xué)者的指點(diǎn)、斧正,在此一并致謝!
胡廣偉2020年3月
目錄
第1章數(shù)據(jù)思維導(dǎo)論
1.1數(shù)、數(shù)據(jù)與大數(shù)據(jù)
1.1.1數(shù)
1.1.2數(shù)據(jù)
1.1.3大數(shù)據(jù)
1.2數(shù)據(jù)科學(xué)
1.2.1數(shù)據(jù)科學(xué)的內(nèi)涵及興起
1.2.2數(shù)據(jù)科學(xué)的學(xué)科定位
1.2.3數(shù)據(jù)科學(xué)的研究?jī)?nèi)容
1.2.4數(shù)據(jù)科學(xué)的工作流程
1.3相關(guān)的“思維”范式
1.3.1思維
1.3.2科學(xué)思維
1.3.3統(tǒng)計(jì)思維
1.3.4數(shù)據(jù)思維
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)
第2章數(shù)據(jù)思維基礎(chǔ)
2.1數(shù)據(jù)思維的產(chǎn)生
2.1.1思維原料的變化
2.1.2思維主體的變化
2.1.3思維工具的變化
2.1.4思維形式的變化
2.2數(shù)據(jù)思維的范式
2.2.1科學(xué)方法論
2.2.2科學(xué)認(rèn)識(shí)論
2.2.3科學(xué)行動(dòng)范式
2.3數(shù)據(jù)思維的特點(diǎn)
2.3.1整體性
2.3.2量化性
2.3.3互聯(lián)性
2.3.4價(jià)值性
2.3.5動(dòng)態(tài)性
2.4數(shù)據(jù)思維的局限
2.4.1全數(shù)據(jù)模式的幻像
2.4.2量化思維的焦慮
2.4.3相關(guān)性的過度崇拜
2.5數(shù)據(jù)思維的應(yīng)用
2.5.1數(shù)據(jù)思維的應(yīng)用價(jià)值
2.5.2數(shù)據(jù)思維的應(yīng)用流程
2.5.3數(shù)據(jù)思維的應(yīng)用方法
2.6數(shù)據(jù)行為
2.6.1數(shù)據(jù)行為的概念
2.6.2數(shù)據(jù)行為的分類
2.6.3數(shù)據(jù)行為的基本原則
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)
第3章數(shù)據(jù)思維原理: 信息學(xué)視角
3.1最大熵原理
3.1.1熵及信息熵的概念
3.1.2最大熵原理的內(nèi)涵
3.1.3最大熵原理的應(yīng)用
3.2最小努力原理
3.2.1最小努力原理的內(nèi)涵
3.2.2最小努力原理的應(yīng)用
3.3對(duì)數(shù)透視現(xiàn)象
3.3.1對(duì)數(shù)透視現(xiàn)象的內(nèi)涵
3.3.2網(wǎng)絡(luò)環(huán)境下的對(duì)數(shù)透視現(xiàn)象
3.4信息生命周期理論
3.4.1信息生命周期的內(nèi)涵
3.4.2信息生命周期運(yùn)動(dòng)的認(rèn)識(shí)
3.4.3信息生命周期理論
3.4.4大數(shù)據(jù)與信息生命周期理論
3.5小世界現(xiàn)象
3.5.1小世界現(xiàn)象的由來
3.5.2小世界現(xiàn)象的研究類型
3.5.3小世界網(wǎng)絡(luò)現(xiàn)象的應(yīng)用
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)
第4章數(shù)據(jù)思維模式
4.1全數(shù)據(jù)思維
4.1.1抽樣數(shù)據(jù): 以小見大
4.1.2全數(shù)據(jù): 以大見小
4.1.3大數(shù)據(jù): 還原事物間的聯(lián)系
4.2容錯(cuò)性思維
4.2.1允許出現(xiàn)錯(cuò)誤
4.2.2混雜的大數(shù)據(jù)也可能更精確
4.2.3接受混雜是趨勢(shì)
4.3實(shí)時(shí)性思維
4.3.1成批處理方式
4.3.2實(shí)時(shí)處理方式
4.3.3兩種處理方式對(duì)比
4.4相關(guān)性思維
4.4.1相關(guān)關(guān)系
4.4.2相關(guān)性思維的應(yīng)用
4.4.3如何處理兩種關(guān)系
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)
第5章數(shù)據(jù)生產(chǎn)
5.1數(shù)據(jù)生產(chǎn)的概念
5.2數(shù)據(jù)生產(chǎn)的特點(diǎn)
5.3數(shù)據(jù)生產(chǎn)的目標(biāo)
5.3.1采集全量數(shù)據(jù)
5.3.2發(fā)現(xiàn)數(shù)據(jù)的新價(jià)值
5.3.3考慮外部用戶的需求
5.4數(shù)據(jù)生產(chǎn)的階段
5.5數(shù)據(jù)的生產(chǎn)源
5.5.1互聯(lián)網(wǎng)數(shù)據(jù)
5.5.2移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)
5.5.3物聯(lián)網(wǎng)數(shù)據(jù)
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)
第6章數(shù)據(jù)采集
6.1數(shù)據(jù)采集的概念
6.2數(shù)據(jù)來源
6.3數(shù)據(jù)選擇
6.4數(shù)據(jù)采集的方法及工具
6.4.1系統(tǒng)日志采集方法
6.4.2傳感器采集方法
6.4.3網(wǎng)絡(luò)爬蟲采集方法
6.4.4其他數(shù)據(jù)采集方法
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)
第7章數(shù)據(jù)存儲(chǔ)
7.1傳統(tǒng)數(shù)據(jù)存儲(chǔ)
7.1.1存儲(chǔ)設(shè)備
7.1.2存儲(chǔ)系統(tǒng)網(wǎng)絡(luò)架構(gòu)
7.2大數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)
7.2.1大數(shù)據(jù)存儲(chǔ)系統(tǒng)的特點(diǎn)
7.2.2分布式存儲(chǔ)
7.2.3云存儲(chǔ)
7.3數(shù)據(jù)庫(kù)技術(shù)
7.3.1數(shù)據(jù)庫(kù)技術(shù)的發(fā)展
7.3.2關(guān)系數(shù)據(jù)庫(kù)
7.3.3NoSQL
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)
第8章數(shù)據(jù)預(yù)處理
8.1數(shù)據(jù)預(yù)處理的必要性
8.2數(shù)據(jù)清洗
8.2.1缺失數(shù)據(jù)處理
8.2.2冗余數(shù)據(jù)處理
8.2.3噪聲數(shù)據(jù)處理
8.3數(shù)據(jù)變換
8.3.1大小變換
8.3.2類型變換
8.4數(shù)據(jù)集成
8.4.1內(nèi)容集成
8.4.2結(jié)構(gòu)集成
8.5其他預(yù)處理方法
8.5.1數(shù)據(jù)脫敏
8.5.2數(shù)據(jù)歸約
8.5.3數(shù)據(jù)標(biāo)注
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)
第9章數(shù)據(jù)分析
9.1業(yè)務(wù)理解
9.2數(shù)據(jù)理解
9.3數(shù)據(jù)分析分類
9.3.1結(jié)構(gòu)化數(shù)據(jù)分析
9.3.2文本分析
9.3.3Web數(shù)據(jù)分析
9.3.4多媒體數(shù)據(jù)分析
9.3.5社交網(wǎng)絡(luò)數(shù)據(jù)分析
9.3.6移動(dòng)數(shù)據(jù)分析
9.4數(shù)據(jù)分析方法的選擇
9.4.1分類算法
9.4.2聚類算法
9.4.3關(guān)聯(lián)分析
9.4.4回歸分析
9.4.5深度學(xué)習(xí)
9.4.6統(tǒng)計(jì)方法
9.5數(shù)據(jù)分析常見陷阱
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)
第10章數(shù)據(jù)可視化
10.1數(shù)據(jù)可視化概述
10.2Microsoft Excel
10.2.1創(chuàng)建圖表
10.2.2選擇正確的圖表
10.3Tableau
10.3.1Tableau Desktop
10.3.2Tableau Online
10.3.3Tableau Mobile
10.4ECharts
10.4.1豐富的可視化類型
10.4.2獲取ECharts
10.4.3ECharts簡(jiǎn)單案例
10.5Rggplot2
10.6D3.js
10.7Processing
10.8BDP
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)
第11章數(shù)據(jù)之殤
11.1數(shù)據(jù)安全
11.1.1數(shù)據(jù)安全的概念
11.1.2數(shù)據(jù)安全的價(jià)值
11.1.3數(shù)據(jù)安全的威脅
11.1.4數(shù)據(jù)安全技術(shù)
11.2數(shù)據(jù)治理
11.2.1數(shù)據(jù)治理的概念
11.2.2數(shù)據(jù)治理的意義
11.2.3數(shù)據(jù)治理內(nèi)容
11.3數(shù)據(jù)倫理
11.3.1數(shù)據(jù)中立性
11.3.2數(shù)據(jù)獨(dú)裁
11.3.3道德判斷
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)
第12章數(shù)據(jù)思維的應(yīng)用
12.1城市治理中的數(shù)據(jù)思維
12.1.1大數(shù)據(jù)與城市治理
12.1.2大都市在行動(dòng)
12.2數(shù)字金融中的數(shù)據(jù)思維
12.2.1銀行
12.2.2數(shù)字化資產(chǎn)管理
12.3智慧物流中的數(shù)據(jù)思維
12.3.1菜鳥驛站
12.3.2貨車幫
12.3.3運(yùn)滿滿
12.4智慧醫(yī)療中的數(shù)據(jù)思維
12.4.1BAT布局互聯(lián)網(wǎng)醫(yī)療
12.4.2醫(yī)療職業(yè)的改變
12.4.3移動(dòng)醫(yī)療新模式
12.5人工智能中的數(shù)據(jù)思維
12.5.1AlphaGo,僅僅是開始
12.5.2自動(dòng)駕駛汽車的困境
12.5.3感知識(shí)別技術(shù)的大爆發(fā)
12.6智能制造中的數(shù)據(jù)思維
12.6.1北科億力科技
12.6.2江蘇沙鋼集團(tuán)
12.6.3上海儀電顯示
12.7現(xiàn)代農(nóng)業(yè)中的數(shù)據(jù)思維
12.7.1北京佳格天地
12.7.2北京農(nóng)信互聯(lián)
小結(jié)
討論與實(shí)踐
參考文獻(xiàn)