定 價:58 元
叢書名:大數(shù)據(jù)類專業(yè)規(guī)劃教材 , 大數(shù)據(jù)技術(shù)與應(yīng)用叢書
- 作者:黑馬程序員 著
- 出版時間:2020/4/1
- ISBN:9787302550877
- 出 版 社:清華大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:394
- 紙張:膠版紙
- 版次:1
- 開本:16開
數(shù)據(jù)清洗是大數(shù)據(jù)預(yù)處理的關(guān)鍵環(huán)節(jié)。面對錯綜復(fù)雜的數(shù)據(jù),傳統(tǒng)的清洗“臟”數(shù)據(jù)工作單調(diào)且異常辛苦,如果能利用正確的工具和方法,可以讓數(shù)據(jù)清洗工作變得事半功倍。
《數(shù)據(jù)清洗》講解數(shù)據(jù)清洗的理論知識和實際應(yīng)用,《數(shù)據(jù)清洗》共8章:第1章主要帶領(lǐng)大家簡單認識數(shù)據(jù)清洗;第2章主要講解ETL技術(shù)相關(guān)的知識;第3章講解Kettle工具的基本使用;第4章主要講解數(shù)據(jù)清洗的一步——數(shù)據(jù)抽取;第5章主要講解數(shù)據(jù)清洗與檢驗;第6章主要講解數(shù)據(jù)轉(zhuǎn)換相關(guān)的知識;第7章主要講解數(shù)據(jù)加載相關(guān)的知識;第8章利用前面章節(jié)所學(xué)的知識構(gòu)建一個DVD租賃商店數(shù)據(jù)倉庫,目的是實現(xiàn)定期從源數(shù)據(jù)庫sakila中抽取增量數(shù)據(jù),轉(zhuǎn)換成F合DVD租賃業(yè)務(wù)的數(shù)據(jù),最后加載到DVD租賃商店數(shù)據(jù)倉庫中,便于后續(xù)在線DVD租賃商店的決策者對數(shù)據(jù)進行分析得出商業(yè)決策。
《數(shù)據(jù)清洗》附有配套視頻、源代碼、習(xí)題、教學(xué)設(shè)計、教學(xué)課件等資源。同時,為了幫助初學(xué)者更好地學(xué)習(xí)《數(shù)據(jù)清洗》中的內(nèi)容,還提供了在線答疑,歡迎讀者關(guān)注。
《數(shù)據(jù)清洗》可作為高等院校本?朴嬎銠C、信息管理等相關(guān)專業(yè)的大數(shù)據(jù)課程教材,也可供相關(guān)技術(shù)人員參考,是一本適合廣大計算機編程愛好者的優(yōu)秀讀物。
近年來,大數(shù)據(jù)技術(shù)掀起了計算機領(lǐng)域的一個新浪潮,無論是數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)可視化,還是機器學(xué)習(xí)、人工智能,它們都繞不開“數(shù)據(jù)”這個主題。從統(tǒng)計學(xué)家到軟件開發(fā)人員,再到圖形設(shè)計師,越來越多的人對數(shù)據(jù)科學(xué)產(chǎn)生了興趣,廉價的硬件、可靠的數(shù)據(jù)處理工具和數(shù)據(jù)可視化工具以及海量的數(shù)據(jù),這些資源使我們能夠輕松地、精確地發(fā)現(xiàn)趨勢、預(yù)測未來。
由于海量數(shù)據(jù)的來源是廣泛的,數(shù)據(jù)類型也是多而繁雜的,因此數(shù)據(jù)中會夾雜著不完整的、重復(fù)的以及錯誤的數(shù)據(jù),如果直接使用這些原始數(shù)據(jù),會嚴重影響數(shù)據(jù)決策的效率。因此,對原始數(shù)據(jù)進行有效的清洗是大數(shù)據(jù)分析和應(yīng)用過程中的關(guān)鍵環(huán)節(jié)。
本書共分為8章,各章內(nèi)容介紹如下:
第1章主要是帶領(lǐng)大家簡單認識數(shù)據(jù)清洗的背景、定義、原理、基本流程、清洗策略以及常見的數(shù)據(jù)清洗方法。通過本章的學(xué)習(xí),讀者可以對數(shù)據(jù)清洗有基本的認識,便于后續(xù)章節(jié)的學(xué)習(xí)。
第2章主要講解ETL技術(shù)相關(guān)的知識,即基于ETL的數(shù)據(jù)清洗(ETL的概念、體系結(jié)構(gòu))、ETL關(guān)鍵技術(shù)(抽取數(shù)據(jù)的技術(shù)、數(shù)據(jù)清洗轉(zhuǎn)換的技術(shù)以及數(shù)據(jù)加載的技術(shù))和ETL常見工具。通過本章的學(xué)習(xí),讀者可以認識ETL,并熟悉ETL的關(guān)鍵技術(shù)和ETL常見的工具。
第3章主要講解數(shù)據(jù)清洗工具Kettle的相關(guān)知識,即Kettle的概述、設(shè)計原則、下載安裝以及基本概念和基本功能。通過本章的學(xué)習(xí),讀者可以使用Kettle工具對ETL數(shù)據(jù)進行相關(guān)處理(抽取、清洗轉(zhuǎn)換以及加載)。
第4章主要講解數(shù)據(jù)清洗的第一步——數(shù)據(jù)抽取,即抽取文本數(shù)據(jù)、Web數(shù)據(jù)以及數(shù)據(jù)庫數(shù)據(jù)的相關(guān)知識。通過本章的學(xué)習(xí),讀者可以掌握抽取各種形式的數(shù)據(jù)并保存至數(shù)據(jù)庫中,便于后續(xù)對數(shù)據(jù)進行相關(guān)清洗轉(zhuǎn)換和分析。
第5章主要講解數(shù)據(jù)的清洗與檢驗相關(guān)的知識,即數(shù)據(jù)去重、缺失值處理、異常值處理以及數(shù)據(jù)檢驗知識。通過本章的學(xué)習(xí),讀者可以掌握對重復(fù)數(shù)據(jù)、缺失值數(shù)據(jù)、異常值數(shù)據(jù)的處理,也可以掌握對數(shù)據(jù)進行檢驗的操作。
第6章主要講解數(shù)據(jù)轉(zhuǎn)換相關(guān)的知識,即多數(shù)據(jù)源合并、不一致數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換、數(shù)據(jù)的商務(wù)規(guī)則計算的知識。通過本章的學(xué)習(xí),讀者可以掌握數(shù)據(jù)轉(zhuǎn)換操作,實現(xiàn)將企業(yè)中的數(shù)據(jù)進行規(guī)范化處理。
第1章 數(shù)據(jù)清洗概述
1.1 數(shù)據(jù)清洗的背景
1.1.1 數(shù)據(jù)質(zhì)量概述
1.1.2 數(shù)據(jù)質(zhì)量的評價指標
1.1.3 數(shù)據(jù)質(zhì)量的問題分類
1.2 數(shù)據(jù)清洗的定義
1.3 數(shù)據(jù)清洗的原理
1.4 數(shù)據(jù)清洗的基本流程
1.5 數(shù)據(jù)清洗的策略
1.6 常見的數(shù)據(jù)清洗方法
1.7 本章小結(jié)
1.8 本章習(xí)題
第2章 初識ETL
2.1 基于ETL的數(shù)據(jù)清洗
2.1.1 ETL的概念
2.1.2 ETL的體系結(jié)構(gòu)
2.2 ETL關(guān)鍵技術(shù)
2.2.1 數(shù)據(jù)的抽取
2.2.2 數(shù)據(jù)的清洗轉(zhuǎn)換
2.2.3 數(shù)據(jù)的加載
2.3 ETL常見工具介紹
2.4 本章小結(jié)
2.5 本章習(xí)題
第3章 Kettle工具的基本使用
3.1 Kettle簡介
3.1.1 Kettle概述
3.1.2 Kettle的設(shè)計原則
3.2 Kettle的下載安裝
3.3 Kettle的基本概念
3.3.1 轉(zhuǎn)換
3.3.2 作業(yè)
3.4 Kettle的基本功能
3.4.1 轉(zhuǎn)換管理
3.4.2 作業(yè)管理
3.4.3 數(shù)據(jù)庫連接
3.5 本章小結(jié)
3.6 本章習(xí)題
第4章 數(shù)據(jù)抽取
4.1 抽取文本數(shù)據(jù)
4.1.1 TSV文件的抽取
4.1.2 CSV文件的抽取
4.2 抽取Web數(shù)據(jù)
4.2.1 HTML網(wǎng)頁的數(shù)據(jù)抽取
4.2.2 XML文件的數(shù)據(jù)抽取
4.2.3 JSON文件的數(shù)據(jù)抽取
4.3 抽取數(shù)據(jù)庫數(shù)據(jù)
4.3.1 抽取關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)
4.3.2 抽取非關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)
4.4 本章小結(jié)
4.5 本章習(xí)題
……
第5章 數(shù)據(jù)的清洗與檢驗
第6章 數(shù)據(jù)轉(zhuǎn)換
第7章 數(shù)據(jù)加載
第8章 綜合案例——構(gòu)建DVD租賃商店數(shù)據(jù)倉庫