《大數(shù)據(jù)導(dǎo)論》內(nèi)容包括大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)下的云計算、大數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)計與分析、大數(shù)據(jù)安全、數(shù)據(jù)可視化、大數(shù)據(jù)與社交媒體的融合、大數(shù)據(jù)促進電子病歷的改革、大數(shù)據(jù)在旅游業(yè)中的應(yīng)用、大數(shù)據(jù)在金融業(yè)的應(yīng)用和大數(shù)據(jù)在制造業(yè)的應(yīng)用,既包括大數(shù)據(jù)的基本知識,也涵蓋大數(shù)據(jù)在典型行業(yè)的具體應(yīng)用,讀者通過學(xué)習(xí)能更深入地認(rèn)識和掌握大數(shù)據(jù)的應(yīng)用價值。書中每章都設(shè)有習(xí)題與實踐,便于鞏固所學(xué)內(nèi)容。
《大數(shù)據(jù)導(dǎo)論》是為高等院校各專業(yè)學(xué)習(xí)大數(shù)據(jù)基本課程而設(shè)計編寫的,既能滿足人文社會科學(xué)學(xué)科的相關(guān)專業(yè)需求,也可以滿足理工科的需要,同時也可作為各行各業(yè)在職人士的參考用書。
本書努力讓非技術(shù)專業(yè)的人看懂?dāng)?shù)據(jù)科學(xué)的知識和理論及方法。
在應(yīng)用部分特別關(guān)注醫(yī)療、旅游、金融和制造業(yè)的典型行業(yè)的應(yīng)用。
大量應(yīng)用了直觀的圖表說明,這些都使本書的邏輯更加清晰,便于理解。
回顧過去的十年,科技產(chǎn)品和成果不斷涌現(xiàn),沖擊著人類的生活方式和思維方式:智能移動設(shè)備、人工智能、云計算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)和各種各樣的“共享”等,使人類認(rèn)知世界的方式和方法發(fā)生了巨大變化。在這些平臺和技術(shù)的運用中,流淌、堆積著一個強大的資源——大數(shù)據(jù)!人們對數(shù)據(jù)的認(rèn)識和運用由此發(fā)生了根本性變化,大數(shù)據(jù)從技術(shù)變成了產(chǎn)業(yè)和科學(xué),數(shù)據(jù)的價值因其“大”而“全”受到前所未有的重視。如果說過去人類社會的發(fā)展是由機械驅(qū)動、電力驅(qū)動或網(wǎng)絡(luò)驅(qū)動的話,那么現(xiàn)在和未來就是由大數(shù)據(jù)來驅(qū)動人類社會的進步。大數(shù)據(jù)的快速發(fā)展和多樣性給人們帶來巨大的挑戰(zhàn),同時大數(shù)據(jù)又給各方面帶來意想不到的價值和機遇。
大數(shù)據(jù)涌現(xiàn):大數(shù)據(jù)之繁在于其“大”,不僅指其容量的數(shù)據(jù)單位由TB級別跨越到了DB級別,還體現(xiàn)在多樣性、處理速度和復(fù)雜度等方面,海量的數(shù)據(jù)已如決堤之洪流涌入人們的生活,大量信息源產(chǎn)生的數(shù)據(jù)已遠遠超越目前人力所能處理的范圍,需要人們探索如何對這些數(shù)據(jù)進行管理及運用;大數(shù)據(jù)的根本在于“數(shù)據(jù)”,在互聯(lián)網(wǎng)及相關(guān)平臺上利用新技術(shù)來采集、存儲和分析激增的數(shù)據(jù)。
大數(shù)據(jù)價值:大數(shù)據(jù)之重在于其“全”,蘊含在大數(shù)據(jù)中的價值使得大數(shù)據(jù)已經(jīng)成為信息產(chǎn)業(yè)中最具潛力的藍海,人們賦予數(shù)據(jù)更多的意義,使數(shù)據(jù)成為信息資源的載體,具有了資本特性;大數(shù)據(jù)的價值在于運用,大數(shù)據(jù)在各個行業(yè)的廣泛應(yīng)用,促進社會價值的快速提升才是其最終目的。這也使得學(xué)習(xí)及掌握大數(shù)據(jù)處理工具和獲得解決方案顯得十分迫切。大數(shù)據(jù)的出現(xiàn)將會對社會各個領(lǐng)域產(chǎn)生深刻影響,“用數(shù)據(jù)來說話、用數(shù)據(jù)來管理、用數(shù)據(jù)來決策、用數(shù)據(jù)來創(chuàng)新”是這個時代的鮮明特征。大數(shù)據(jù)技術(shù)將對社會各層面的現(xiàn)在和未來產(chǎn)生巨大價值,包括決策、預(yù)測和洞見等。
大數(shù)據(jù)人才:大數(shù)據(jù)時代需要一大批具備大數(shù)據(jù)知識和技能的人才,一方面,要有一部分專業(yè)人才,不斷研究大數(shù)據(jù)科學(xué)和技術(shù);另一方面,其他領(lǐng)域的人才也應(yīng)該能充分了解大數(shù)據(jù)并能和自己的專業(yè)領(lǐng)域結(jié)合,有效地將大數(shù)據(jù)科學(xué)和各行業(yè)的應(yīng)用相結(jié)合,推動新技術(shù)和新應(yīng)用的發(fā)展,這兩個方面的人才都是不可或缺的。因此,以不同的需求,從不同的角度學(xué)習(xí)和了解大數(shù)據(jù)是本書編寫的基本出發(fā)點。
本書的讀者對象是社會科學(xué)類的高等院校相關(guān)專業(yè)開設(shè)“大數(shù)據(jù)”有關(guān)課程的本科生、研究生,以及各行各業(yè)的經(jīng)濟、管理人員。此外,本書對于信息技術(shù)專業(yè)和理工科類專業(yè)的學(xué)生,以及有一定實踐經(jīng)驗的IT技術(shù)人員,也具有一定的參考價值。
本書的編寫力求理論聯(lián)系實際,結(jié)合一系列了解和熟悉大數(shù)據(jù)理念、技術(shù)與應(yīng)用的學(xué)習(xí)和實踐活動,把大數(shù)據(jù)的相關(guān)概念、基礎(chǔ)知識和技術(shù)技巧融入在實踐中,使學(xué)生保持濃厚的學(xué)習(xí)熱情,加深對大數(shù)據(jù)技術(shù)和運用的興趣、認(rèn)識、理解和掌握。努力讓非技術(shù)專業(yè)的人看懂?dāng)?shù)據(jù)科學(xué)的知識和理論及方法。本書在應(yīng)用部分特別關(guān)注醫(yī)療、旅游、金融和制造業(yè)的典型行業(yè)的應(yīng)用。例如,電子病歷的改革、大數(shù)據(jù)在旅游業(yè)中的應(yīng)用、大數(shù)據(jù)在金融業(yè)中的應(yīng)用,以及大數(shù)據(jù)在制造業(yè)中的應(yīng)用,具有較強的行業(yè)實踐性。為相關(guān)章節(jié)的知識應(yīng)用提供了現(xiàn)實場景,以加深讀者對大數(shù)據(jù)實際應(yīng)用的認(rèn)識。另外,本書大量應(yīng)用了直觀的圖表說明,這些都使本書的邏輯更加清晰,便于理解。
本書由天津財經(jīng)大學(xué)教師和研究生團隊編寫。參加編寫工作的人員具體分工為:楊尊琦、林海負(fù)責(zé)大綱的制定、全書的校改和第1章的撰寫等工作;朱笑笑負(fù)責(zé)第2章和第8章的撰寫;潘婧煒負(fù)責(zé)第3章和第9章的撰寫;王雅萌負(fù)責(zé)第4章和第5章的撰寫;張琳負(fù)責(zé)第6章和第7章的撰寫;劉君玲負(fù)責(zé)第10章和第11章的撰寫。本書在編寫過程中參考了很多優(yōu)秀的教材、專著和網(wǎng)上資料,在此對所有被引用文獻的作者表示衷心的感謝。
特別要感謝機械工業(yè)出版社的鼎力支持,以及本書編輯的辛勤工作。由于編者水平和能力有限,書中難免有不當(dāng)之處,希望讀者朋友給予指正,不吝賜教。
前言
第1章大數(shù)據(jù)基礎(chǔ)
1.1大數(shù)據(jù)時代
1.1.1大數(shù)據(jù)時代的技術(shù)基礎(chǔ)
1.1.2大數(shù)據(jù)時代的變革
1.1.3信息技術(shù)(IT)向數(shù)據(jù)技術(shù)
(DT)的轉(zhuǎn)變
1.2什么是大數(shù)據(jù)
1.2.1數(shù)據(jù)的基本知識
1.2.2大數(shù)據(jù)定義
1.2.3大數(shù)據(jù)的特征
1.3大數(shù)據(jù)結(jié)構(gòu)類型
1.4大數(shù)據(jù)的應(yīng)用
1.4.1大數(shù)據(jù)在個人生活中的應(yīng)用
1.4.2大數(shù)據(jù)在企業(yè)中的應(yīng)用
1.4.3大數(shù)據(jù)在政府部門中的運用
1.5數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)
1.5.1數(shù)據(jù)科學(xué)
1.5.2大數(shù)據(jù)技術(shù)與工具
1.6習(xí)題與實踐
參考文獻
第2章大數(shù)據(jù)下的云計算
2.1云計算概述
2.1.1云計算的定義
2.1.2云計算的特征
2.1.3云計算的體系架構(gòu)
2.1.4云計算的類型劃分
2.1.5云計算的服務(wù)模式
2.2云計算技術(shù)
2.2.1虛擬化技術(shù)
2.2.2并行計算技術(shù)
2.2.3海量數(shù)據(jù)管理技術(shù)
2.2.4海量數(shù)據(jù)存儲技術(shù)
2.3云計算與云存儲
2.3.1云存儲概述
2.3.2云存儲的存儲方式
2.3.3云存儲與云計算的關(guān)系
2.4云計算與大數(shù)據(jù)
2.4.1云計算與大數(shù)據(jù)的關(guān)系
2.4.2云計算與大數(shù)據(jù)的結(jié)合
2.5案例——基于云計算的智慧
城市建設(shè)框架
2.5.1智慧城市的內(nèi)涵
2.5.2智慧城市的支撐技術(shù)
2.5.3智慧城市的體系架構(gòu)
2.5.4智慧城市的應(yīng)用
2.6習(xí)題與實踐
參考文獻
第3章大數(shù)據(jù)處理
3.1數(shù)據(jù)采集
3.1.1數(shù)據(jù)采集方法
3.1.2數(shù)據(jù)質(zhì)量評估
3.1.3數(shù)據(jù)質(zhì)量的影響因素
3.2數(shù)據(jù)清洗
3.2.1處理殘缺數(shù)據(jù)
3.2.2處理噪聲數(shù)據(jù)
3.2.3處理冗余數(shù)據(jù)
3.3數(shù)據(jù)變換
3.3.1屬性類型變換
3.3.2屬性值變換
3.4數(shù)據(jù)集成
3.4.1模式匹配與數(shù)據(jù)值沖突
3.4.2數(shù)據(jù)冗余
3.5數(shù)據(jù)歸約
3.5.1維歸約
3.5.2數(shù)值歸約
3.6習(xí)題與實踐
參考文獻
第4章數(shù)據(jù)統(tǒng)計與分析
4.1統(tǒng)計分析方法
4.1.1分類與預(yù)測
4.1.2聚類分析
4.1.3關(guān)聯(lián)分析
4.1.4異常分析
4.2數(shù)據(jù)挖掘的基本概念
4.2.1數(shù)據(jù)挖掘的定義
4.2.2數(shù)據(jù)挖掘的分類
4.2.3數(shù)據(jù)挖掘的過程
4.3數(shù)據(jù)挖掘經(jīng)典算法
4.3.1K-Means算法
4.3.2KNN算法
4.3.3ID3算法
4.4案例——用大數(shù)據(jù)來挖掘
《小時代》
4.5習(xí)題與實踐
參考文獻
第5章大數(shù)據(jù)安全
5.1安全與隱私問題凸顯
5.1.1網(wǎng)絡(luò)安全漏洞
5.1.2個人隱私泄露
5.2大數(shù)據(jù)時代的安全挑戰(zhàn)
5.2.1信息安全的發(fā)展歷程
5.2.2云計算技術(shù)帶來的安全挑戰(zhàn)
5.3如何解決大數(shù)據(jù)安全問題
5.3.1大數(shù)據(jù)安全防護對策
5.3.2大數(shù)據(jù)安全防護關(guān)鍵技術(shù)
5.4如何解決隱私保護問題
5.4.1隱私保護的政策法規(guī)
5.4.2隱私保護技術(shù)
5.5案例——百度大數(shù)據(jù)安全
實踐
5.6習(xí)題與實踐
參考文獻
第6章數(shù)據(jù)可視化
6.1數(shù)據(jù)可視化類型
6.1.1科學(xué)可視化
6.1.2信息可視化
6.1.3可視分析學(xué)
6.2數(shù)據(jù)可視化流程及步驟
6.2.1數(shù)據(jù)可視化流程
6.2.2數(shù)據(jù)處理和變換
6.2.3視覺編碼
6.2.4統(tǒng)計圖表
6.2.5視覺隱喻
6.3可視化評估
6.3.1評估分類
6.3.2評估方法
6.4習(xí)題與實踐
參考文獻
第7章大數(shù)據(jù)與社交媒體的融合
7.1什么是社交媒體
7.1.1社交媒體的定義
7.1.2社交媒體的發(fā)展
7.2社交媒體大數(shù)據(jù)的分析與
挖掘
7.2.1基于用戶的大數(shù)據(jù)分析
7.2.2基于關(guān)系的大數(shù)據(jù)分析
7.2.3基于內(nèi)容的大數(shù)據(jù)分析
7.3社交媒體大數(shù)據(jù)的未來挑戰(zhàn)
7.4社交媒體大數(shù)據(jù)信息安全
問題
7.4.1社交媒體導(dǎo)致的信息風(fēng)險類型和
形成原因
7.4.2社交媒體的信息風(fēng)險治理
方案
7.5習(xí)題與實踐
參考文獻
第8章大數(shù)據(jù)促進電子病歷的
改革
8.1醫(yī)療病歷的問題與挑戰(zhàn)
8.1.1病歷共享和追溯問題
8.1.2病歷責(zé)任意識薄弱
8.1.3病歷遺失現(xiàn)象
8.1.4電子病歷的出現(xiàn)
8.2大數(shù)據(jù)與電子病歷
8.2.1電子病歷的大數(shù)據(jù)定義
8.2.2基于大數(shù)據(jù)的標(biāo)準(zhǔn)化電子
病歷
8.2.3“大數(shù)據(jù)+云計算”的電子病歷
存儲
8.2.4基于大數(shù)據(jù)的電子病歷共享和
追溯
8.3電子病歷與數(shù)據(jù)挖掘
8.3.1電子病歷數(shù)據(jù)的深度利用
8.3.2電子病歷的數(shù)據(jù)預(yù)處理
8.3.3多維電子病歷數(shù)據(jù)分析
8.3.4電子病歷數(shù)據(jù)挖掘
8.4我國居民終身電子病歷
8.4.1背景分析
8.4.2實施方案
8.4.3技術(shù)支持
8.5習(xí)題與實踐
參考文獻
第9章大數(shù)據(jù)在旅游業(yè)中的應(yīng)用
9.1旅游數(shù)據(jù)的問題與發(fā)展
9.1.1旅游數(shù)據(jù)收集問題
9.1.2旅游數(shù)據(jù)分析問題
9.1.3旅游數(shù)據(jù)應(yīng)用問題
9.1.4旅游數(shù)據(jù)的發(fā)展方向
9.2大數(shù)據(jù)與旅游業(yè)
9.2.1智慧旅游+大數(shù)據(jù)
9.2.2定制旅游+大數(shù)據(jù)
9.2.3精準(zhǔn)營銷+大數(shù)據(jù)
9.3旅游與數(shù)據(jù)挖掘
9.3.1鎖定客戶人群、關(guān)注客戶
需求
9.3.2社交媒體挖掘、增加客戶
忠誠
9.4旅游平臺
9.4.1旅游平臺的模式
9.4.2旅游平臺的技術(shù)
9.5習(xí)題與實踐
參考文獻
第10章大數(shù)據(jù)在金融業(yè)中的應(yīng)用
——金融大數(shù)據(jù)
10.1金融大數(shù)據(jù)概述
10.1.1什么是金融大數(shù)據(jù)
10.1.2金融大數(shù)據(jù)對金融業(yè)的
影響
10.1.3金融大數(shù)據(jù)應(yīng)用的實施
戰(zhàn)略
10.2金融大數(shù)據(jù)的應(yīng)用
10.2.1金融大數(shù)據(jù)的業(yè)務(wù)應(yīng)用
10.2.2金融大數(shù)據(jù)的應(yīng)用舉例
10.3大數(shù)據(jù)與金融創(chuàng)新
10.3.1金融創(chuàng)新的四個維度
10.3.2金融創(chuàng)新的應(yīng)用舉例
10.4習(xí)題與實踐
參考文獻
第11章大數(shù)據(jù)在制造業(yè)中的應(yīng)用
——工業(yè)大數(shù)據(jù)
11.1大數(shù)據(jù)下的工業(yè)革命
11.1.1工業(yè)4.0
11.1.2“新工業(yè)革命”和“中國制
造2025”
11.2工業(yè)大數(shù)據(jù)
11.3大數(shù)據(jù)與智能工廠
11.3.1智能工廠的概念、