企業(yè)級數(shù)據(jù)與AI項目成功之道
定 價:89 元
- 作者:[美]尼爾·菲什曼(Neal Fishman),[美]科爾·斯特萊克(Cole Stryker)
- 出版時間:2021/11/1
- ISBN:9787111684763
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:F272.7
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
只有在可以一致地提供預測性的業(yè)務見解并在整個組織范圍內(nèi)擴展時,數(shù)據(jù)分析和AI才能產(chǎn)生價值。這也是眾多企業(yè)所面臨的巨大挑戰(zhàn)。本書概述了有效且實用的組織、管理和評估數(shù)據(jù)的方法,因此有助于建立信息體系結(jié)構(gòu)以更好地推動AI和數(shù)據(jù)科學的發(fā)展。本書主要包括以下內(nèi)容:簡化數(shù)據(jù)管理,使數(shù)據(jù)隨時隨地可用;縮短實現(xiàn)AI用例的價值實現(xiàn)時間;使整個企業(yè)都可以訪問AI和數(shù)據(jù)洞察力;動態(tài)、實時地擴展復雜的AI場景;開發(fā)可帶來可預測的、可重復的價值的信息體系結(jié)構(gòu)。本書可以使包括架構(gòu)師、開發(fā)人員、產(chǎn)品所有者和業(yè)務主管在內(nèi)的各種角色受益。
“我想做的是交付結(jié)果!
Lou Gerstner
Business Week
為何你需要此書
“19世紀末,誰也不會相信地球正受到智慧生命的密切注視……”
1898年,H. G. Wells出版的《世界大戰(zhàn)》(The War of the Worlds,Harper & Brothers)以此開場。在20世紀末,這樣的懷疑也同樣盛行。但與19世紀以來的虛構(gòu)的注視者不同,20世紀晚期的注視者是真實存在的,而這些注視者就是具有開拓性的數(shù)字化公司。在《世界大戰(zhàn)》中,單細胞細菌被證明是兼具進攻性和防御性的決定性武器。如今,這一武器便是數(shù)據(jù)。當數(shù)據(jù)被錯誤使用時,企業(yè)將會面臨突然崩潰的局面;當數(shù)據(jù)被正確使用時,企業(yè)則會茁壯成長。
自象形文字和字母出現(xiàn)以來,數(shù)據(jù)已然開始發(fā)揮其作用。商業(yè)智能(Business Intelligence,BI)一詞的出現(xiàn),可以追溯至Richard Millar Devens 1865年出版的Cyclopaedia of Commercial and Business Anecdotes一書。盡管如此,直至制表機器公司(Tabulating Machine Company,IBM前身)創(chuàng)始人Herman Hollerith發(fā)明了打孔卡片,數(shù)據(jù)的大規(guī)模采集才得以實現(xiàn)。Hollerith初是為1890年美國政府人口普查而發(fā)明的打孔制表技術(shù)。1937年,美國政府與IBM簽署協(xié)議,運用其打孔卡讀卡機,為涉及2600萬個社會保障號碼的大規(guī)模簿記項目提供服務和支持。
1965年,美國政府建立了個數(shù)據(jù)中心,以存儲其7.42億張納稅申報單和1.75億套錄有指紋信息的計算機磁帶。隨著互聯(lián)網(wǎng)以及后來的移動設(shè)備和物聯(lián)網(wǎng)的出現(xiàn),私有企業(yè)能夠基于日益增加的與消費者共享的觸點數(shù),建立大量的消費者數(shù)據(jù)存儲,從而使大規(guī)模數(shù)據(jù)使用真正得以實現(xiàn)。平均而言,每個人每秒創(chuàng)建的數(shù)據(jù)量超過1.7MB,這樣的信息量大致相當于154萬億張打孔卡片。通過將數(shù)據(jù)量與數(shù)據(jù)有效處理能力相結(jié)合,數(shù)據(jù)并不僅僅是被簡單記錄和保存,而是得以大規(guī)模使用。
顯然,我們正處于大數(shù)據(jù)時代。企業(yè)正在爭先恐后地整合各種能完成高級分析的能力,如人工智能和機器學習,從而限度地利用其自身的數(shù)據(jù)。如何通過具有前瞻性的預判來改善市場的商業(yè)表現(xiàn),已然成為強制性需求。諸如數(shù)據(jù)湖(Data Lake)之類的數(shù)據(jù)管理概念也被提出,以指導企業(yè)進行數(shù)據(jù)存儲和數(shù)據(jù)管理。在許多方面,數(shù)據(jù)湖與更早的企業(yè)數(shù)據(jù)倉庫(Enterprise Data Warehouse,EDW)形成了鮮明對比。通常而言,企業(yè)數(shù)據(jù)倉庫僅接受已被視為有用的數(shù)據(jù),且其內(nèi)容的組織方式高度系統(tǒng)化。
在被誤用的情況下,一個數(shù)據(jù)湖只不過是非結(jié)構(gòu)化和未處理的海量數(shù)據(jù)的存儲地,許多這樣的數(shù)據(jù)永遠都不會被使用。然而,通過高級分析和機器學習模型,數(shù)據(jù)湖可以有效地得到利用。
但是,數(shù)據(jù)倉庫和數(shù)據(jù)湖能否真正實現(xiàn)企業(yè)改善商業(yè)表現(xiàn)的目的?更簡潔地說,企業(yè)是否已經(jīng)意識到存儲數(shù)據(jù)之地在商業(yè)方面的價值?
全球信息技術(shù)研究和咨詢公司—高德納咨詢公司(Gartner Group)對此進行了引人深思的分析。據(jù)估計,超過一半的企業(yè)數(shù)據(jù)倉庫嘗試都是失敗的,而新的數(shù)據(jù)湖的情況甚至更糟。高德納的分析師曾預測,數(shù)據(jù)湖的失敗率可能高達60%。然而,現(xiàn)在高德納認為這個數(shù)字過于保守,實際失敗率可能接近85%。
為什么諸如企業(yè)數(shù)據(jù)倉庫和數(shù)據(jù)湖這樣的方案的失敗率如此驚人?簡單來說,開發(fā)適當?shù)男畔⒓軜?gòu)并非易事。
與企業(yè)數(shù)據(jù)倉庫的失敗原因相同,數(shù)據(jù)科學家采用的許多方法也未能意識到如下幾點:
企業(yè)性質(zhì)。
企業(yè)的業(yè)務運營。
變化的隨機性和潛在的巨大性。
數(shù)據(jù)質(zhì)量的重要性。
在模式設(shè)計和信息架構(gòu)中應用不同技術(shù)的方式,這可能會影響組織應對變化的準備。
分析表明,數(shù)據(jù)湖和大數(shù)據(jù)計劃失敗率較高的原因并不在于技術(shù)本身,而是在于技術(shù)人員應用技術(shù)的方式。
在我們與企業(yè)客戶的對話中,這些方面很快就變得不言而喻。在討論數(shù)據(jù)倉庫和數(shù)據(jù)湖時,我們經(jīng)常面臨諸多問題,例如:“對于每一種方式而言,我們都有很多選擇,選擇哪一個?”經(jīng)常會出現(xiàn)組織中的一個部門需要數(shù)據(jù)庫進行數(shù)據(jù)存儲,但是其需求無法通過以前的數(shù)據(jù)存儲方式得到滿足。因此,該部門不再嘗試重塑或更新已有的數(shù)據(jù)倉庫或者數(shù)據(jù)湖,而是創(chuàng)建一個全新的數(shù)據(jù)存儲區(qū)域。這樣做的結(jié)果往往是一個多種數(shù)據(jù)存儲解決方案的大雜燴,彼此之間不能有效結(jié)合,從而喪失數(shù)據(jù)分析的機會。
顯然,新技術(shù)可以提供許多實實在在的好處,但是除非對這些技術(shù)進行嚴謹?shù)牟渴鸷凸芾,否則,這些好處無法實現(xiàn)。與傳統(tǒng)建筑架構(gòu)的設(shè)計不同,信息架構(gòu)的設(shè)計無法做到一勞永逸。
雖然組織可以控制如何獲取數(shù)據(jù),但是不能控制所需要的數(shù)據(jù)如何隨時間變化。組織往往是脆弱的,因為當環(huán)境發(fā)生變化時,信息架構(gòu)可能會崩潰。只有靈活的、自適應的信息架構(gòu)才能適應新的環(huán)境。針對動態(tài)目標,設(shè)計和部署解決方案是困難的,但這個挑戰(zhàn)并非不可克服。
很多信息技術(shù)專業(yè)人士都認為“垃圾輸入等于垃圾輸出”這個草率斷言已經(jīng)過時了。實際上,數(shù)十年來,垃圾數(shù)據(jù)一直給分析和決策過程帶來困擾。管理不善的數(shù)據(jù)和缺乏一致性的表示對每一個人工智能項目來說依然是危險信號。
機器學習和深度學習對數(shù)據(jù)質(zhì)量的要求尤其高。就像硬幣的兩面,低質(zhì)量數(shù)據(jù)可能帶來兩種具有破壞性的影響。一方面,與歷史數(shù)據(jù)相關(guān)的低質(zhì)量數(shù)據(jù)會使預測模型的訓練失真;另一方面,新數(shù)據(jù)會使模型失真,對決策制定產(chǎn)生負面影響。
作為一種可共享資源,當數(shù)據(jù)質(zhì)量不佳時,數(shù)據(jù)通過服務層像病毒一樣暴露在整個組織中,從而影響每一個接觸此數(shù)據(jù)的人。因此,人工智能的信息架構(gòu)必須能減少與數(shù)據(jù)質(zhì)量相關(guān)的傳統(tǒng)問題,促進數(shù)據(jù)流動,并在必要的時候?qū)崿F(xiàn)數(shù)據(jù)隔離。
本書的目的是讓你了解企業(yè)如何構(gòu)建信息架構(gòu),從而為成功的、可持續(xù)的、可擴展的人工智能部署鋪平道路。本書包括一個結(jié)構(gòu)化框架和建議,既兼顧實用性又具有可操作性,可以幫助企業(yè)完成信息架構(gòu),進而從人工智能技術(shù)中獲益。
本書主要內(nèi)容
我們將從第1章開始,對人工智能階梯進行討論。人工智能階梯是IBM開發(fā)的一個說明性工具,用來演示一個組織要持續(xù)從人工智能技術(shù)中獲益所必須攀登的“步驟”或“梯級”。由此出發(fā),第2章和第3章涵蓋了數(shù)據(jù)科學家和信息技術(shù)領(lǐng)導者在攀登人工智能階梯的過程中必須注意的一系列因素。
在第4章和第5章中,我們將探索關(guān)于數(shù)據(jù)倉庫及其如何讓位于數(shù)據(jù)湖的歷史,并討論如何根據(jù)地形學和拓撲學來設(shè)計數(shù)據(jù)湖。這些討論將深入數(shù)據(jù)的接收、治理、存儲、處理、訪問、管理和監(jiān)測等方面。
在第6章中,我們將討論開發(fā)運營(DevOps)、數(shù)據(jù)運營(DataOps)、機器學習運營(MLOps)如何使組織得以更好地實時使用數(shù)據(jù)。在第7章中,我們將深入探討數(shù)據(jù)治理和集成數(shù)據(jù)管理的基本要素。為了便于數(shù)據(jù)科學家確定數(shù)據(jù)的價值,我們將討論數(shù)據(jù)價值鏈和數(shù)據(jù)可訪問性、可發(fā)現(xiàn)性的需求。
由于組織內(nèi)部的不同角色需要以不同的方式與數(shù)據(jù)進行交互,第8章將介紹不同的數(shù)據(jù)訪問方式,還將進一步討論數(shù)據(jù)價值評估,并解釋如何使用統(tǒng)計學協(xié)助實現(xiàn)數(shù)據(jù)價值排序。
在第9章中,我們將討論信息架構(gòu)中可能出現(xiàn)的問題,以及整個組織的數(shù)據(jù)素養(yǎng)對于規(guī)避此類問題的重要性。
后,在第10章中,我們將對開發(fā)人工智能信息架構(gòu)的相關(guān)情況進行概述。第10章還提供了將上述理論背景應用于現(xiàn)實世界的信息架構(gòu)開發(fā)的可行步驟。
尼爾·菲什曼(Neal Fishman)是IBM的杰出工程師,并且是IBM全球業(yè)務服務組織內(nèi)基于數(shù)據(jù)的病理學的首席技術(shù)官。尼爾也是Open Group認證的杰出IT架構(gòu)師。
科爾·斯特萊克(Cole Stryker)是一名常駐洛杉磯的作家和記者。他是Epic Win for Anonymous和Hacking the Future的作者。
題記
本書贊譽
序言
前言
致謝
關(guān)于作者
第1章 攀登人工智能階梯1
1.1 人工智能的數(shù)據(jù)準備2
1.2 重點技術(shù)領(lǐng)域2
1.3 一步一個腳印地攀登階梯3
1.4 不斷適應以保持組織的相關(guān)性6
1.5 基于數(shù)據(jù)的推理在現(xiàn)代業(yè)務中至關(guān)重要8
1.6 朝著以人工智能為中心的組織邁進11
1.7 本章小結(jié)12
第2章 框架部分I:使用人工智能的注意事項14
2.1 數(shù)據(jù)驅(qū)動決策制定15
2.1.1 通過詢問來獲得洞見15
2.1.2 信任矩陣16
2.1.3 衡量標準和人類洞見的重要性18
2.2 使數(shù)據(jù)與數(shù)據(jù)科學民主化18
2.3 是的,先決條件:組織數(shù)據(jù)必須有先見之明20
2.4 促進變革之風:有組織的數(shù)據(jù)如何縮短反應時間23
2.5 質(zhì)疑一切24
2.6 本章小結(jié)26
第3章 框架部分II:使用數(shù)據(jù)和人工智能的注意事項27
3.1 個性化每個用戶的數(shù)據(jù)體驗28
3.2 上下文的影響:選擇正確的數(shù)據(jù)顯示方式29
3.3 民族志研究:通過專業(yè)數(shù)據(jù)增進理解32
3.4 數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量33
3.4.1 分解數(shù)據(jù)的價值34
3.4.2 通過數(shù)據(jù)治理提供結(jié)構(gòu)34
3.4.3 為訓練進行數(shù)據(jù)策管35
3.4.4 創(chuàng)造價值的其他注意事項35
3.5 本體論:封裝知識的手段36
3.6 人工智能成果的公平、信任和透明度38
3.7 可訪問的、準確的、經(jīng)過策管的和經(jīng)過組織的數(shù)據(jù)41
3.8 本章小結(jié)42
第4章 分析回顧:不只是個錘子44
4.1 曾經(jīng)的情況:回顧企業(yè)數(shù)據(jù)倉庫44
4.2 傳統(tǒng)數(shù)據(jù)倉庫的缺點49
4.3 范式轉(zhuǎn)變52
4.4 現(xiàn)代分析環(huán)境:數(shù)據(jù)湖53
4.4.1 兩者對比55
4.4.2 本地數(shù)據(jù)56
4.4.3 差異屬性56
4.5 數(shù)據(jù)湖的要素58
4.6 新常態(tài):大數(shù)據(jù)即普通數(shù)據(jù)60
4.6.1 從單一數(shù)據(jù)模型的剛性中解放出來60
4.6.2 流數(shù)據(jù)61
4.6.3 適合任務的工具61
4.6.4 易訪問性61
4.6.5 降低成本61
4.6.6 可擴展性62
4.6.7 人工智能的數(shù)據(jù)管理和數(shù)據(jù)治理62
4.7 Schema-On-Read與Schema-On-Write63
4.8 本章小結(jié)65
第5章 分析前瞻:不是所有事物都是釘子67
5.1 組織的需求67
5.1.1 暫存區(qū)域69
5.1.2 原始區(qū)域70
5.1.3 發(fā)現(xiàn)與探索區(qū)域71
5.1.4 對齊區(qū)域71
5.1.5 協(xié)調(diào)區(qū)域76
5.1.6 策管區(qū)域77
5.2 數(shù)據(jù)拓撲78
5.2.1 區(qū)域地圖80
5.2.2 數(shù)據(jù)管道81
5.2.3 數(shù)據(jù)地形81
5.3 擴展、添加、移動和刪除區(qū)域83
5.4 啟用區(qū)域84
5.4.1 攝入84
5.4.2 數(shù)據(jù)治理86
5.4.3 數(shù)據(jù)存儲和保留87
5.4.4 數(shù)據(jù)處理89
5.4.5 數(shù)據(jù)訪問90
5.4.6 管理和監(jiān)控91
5.4.7 元數(shù)據(jù)91
5.5 本章小結(jié)92
第6章 人工智能階梯的運營準則93
6.1 時光流逝94
6.2 創(chuàng)建98
6.2.1 穩(wěn)定性99
6.2.2 障礙99
6.2.3 復雜性99
6.3 執(zhí)行100
6.3.1 攝入101
6.3.2 可見性102
6.3.3 合規(guī)性102
6.4 運行102
6.4.1 質(zhì)量103
6.4.2 依賴104
6.4.3 可復用性104
6.5 xOps三重奏:DevOps/MLOps、DataOps和AIOps105
6.5.1 DevOps/MLOps105
6.5.2 DataOps107
6.5.3 AIOps109
6.6 本章小結(jié)111
第7章 化運用數(shù)據(jù):以價值為導向112
7.1 邁向價值鏈113
7.1.1 通過關(guān)聯(lián)鏈接116
7.1.2 啟用操作117
7.1.3 擴大行動手段118
7.2 策管119
7.3 數(shù)據(jù)治理121
7.4 集成數(shù)據(jù)管理123
7.4.1 載入125
7.4.2 組織125
7.4.3 編目126
7.4.4 元數(shù)據(jù)127
7.4.5 準備128
7.4.6 預配129
7.4.7 多租戶129
7.5 本章小結(jié)132
第8章 通過統(tǒng)計分析評估數(shù)據(jù)并啟用有意義的訪問133
8.1 派生價值:將數(shù)據(jù)當作資產(chǎn)進行管理133
8.2 數(shù)據(jù)可訪問性:并非所有用戶都是平等的139
8.3 向數(shù)據(jù)提供自助服務140
8.4 訪問:添加控件的重要性141
8.5 為了數(shù)據(jù)治理,使用自底向上的方法對數(shù)據(jù)集進行排序142
8.6 各行業(yè)如何使用數(shù)據(jù)和人工智能143
8.7 受益于統(tǒng)計數(shù)字144
8.8 本章小結(jié)151
第9章 長期構(gòu)建152
9.1 改變習慣的需要:避免硬編碼152
9.1.1 過載153
9.1.2 鎖定154
9.1.3 所有權(quán)和分解156
9.1.4 避免變化的設(shè)計156
9.2 通過人工智能擴展數(shù)據(jù)的價值157
9.3 混合持久化159
9.4 受益于數(shù)據(jù)素養(yǎng)163
9.4.1 理解主題165
9.4.2 技能集165
9.4.3 全部都是元數(shù)據(jù)167
9.4.4 正確的數(shù)據(jù),在正確的上下文
中,使用正確的接口168
9.5 本章小結(jié)170
第10章 終章:人工智能的信息架構(gòu)171
10.1 人工智能開發(fā)工作172
10.2 基本要素:基于云的計算、數(shù)據(jù)和分析175
10.2.1 交集:計算容量和存儲容量180
10.2.2 分析強度181
10.2.3 跨要素的互操作性183
10.2.4 數(shù)據(jù)管道飛行路徑:飛行前、飛行中、飛行后186
10.2.5 數(shù)據(jù)水坑、數(shù)據(jù)池和數(shù)據(jù)