爬蟲(chóng)實(shí)戰(zhàn):從數(shù)據(jù)到產(chǎn)品
定 價(jià):69 元
- 作者:賀思聰
- 出版時(shí)間:2019/3/1
- ISBN:9787121355080
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:244
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)從多個(gè)數(shù)據(jù)項(xiàng)目實(shí)例出發(fā),介紹爬蟲(chóng)、反爬蟲(chóng)的各種案例,使讀者了解到數(shù)據(jù)抓取和分析的完整過(guò)程。書(shū)中案例的難度由淺入深,以作者原創(chuàng)的代碼為主,不借助現(xiàn)成的框架,強(qiáng)調(diào)在數(shù)據(jù)采集過(guò)程中的發(fā)散思維,總結(jié)攻克反爬蟲(chóng)的思維模式,實(shí)現(xiàn)以低成本的方式得到想要的數(shù)據(jù)的愿望。最后,用一個(gè)“愛(ài)飛狗”的例子,為讀者展示如何從0到1地開(kāi)發(fā)一個(gè)大數(shù)據(jù)產(chǎn)品。
賀思聰,碩士,畢業(yè)于電子科技大學(xué)機(jī)械電子工程專(zhuān)業(yè),現(xiàn)服務(wù)于思特沃克軟件技術(shù)成都有限公司任 高級(jí)咨詢師職位,長(zhǎng)期關(guān)注互聯(lián)網(wǎng)前沿技術(shù),有多年爬蟲(chóng)經(jīng)驗(yàn)。
第1章 基礎(chǔ)知識(shí) 1
1.1 什么是爬蟲(chóng) 1
1.2 數(shù)據(jù)獲取渠道 2
1.3 抓包分析工具 4
1.4 爬蟲(chóng)和反爬蟲(chóng)的斗爭(zhēng) 5
1.5 數(shù)據(jù)處理、分析和可視化 20
1.6 延深閱讀 21
第2章 基于位置信息的爬蟲(chóng)Ⅰ 23
2.1 背景及目標(biāo) 23
2.2 爬蟲(chóng)原理 24
2.3 數(shù)據(jù)來(lái)源分析 26
2.4 簡(jiǎn)單的矩形區(qū)域爬取方式 38
2.5 高級(jí)區(qū)域爬取方式 46
2.6 坐標(biāo)轉(zhuǎn)換 49
2.7 存儲(chǔ)數(shù)據(jù)的方式 49
2.8 數(shù)據(jù)導(dǎo)入 51
2.9 基本數(shù)據(jù)分析 52
2.10 地圖可視化 56
2.11 軌跡可視化 58
2.12 總結(jié) 60
第3章 基于位置信息的爬蟲(chóng)Ⅱ 62
3.1 背景及目標(biāo) 62
3.2 爬蟲(chóng)原理 62
3.3 優(yōu)化方案一 71
3.4 優(yōu)化方案二 75
3.5 優(yōu)化方案三 82
3.6 導(dǎo)入數(shù)據(jù)到數(shù)據(jù)庫(kù) 97
3.7 基本數(shù)據(jù)分析及可視化 100
3.8 總結(jié) 117
第4章 網(wǎng)站信息爬取及可視化 118
4.1 背景及目標(biāo) 118
4.2 網(wǎng)站API分析 118
4.3 數(shù)據(jù)爬取 122
4.4 數(shù)據(jù)導(dǎo)入 129
4.5 數(shù)據(jù)分析及可視化 133
4.6 總結(jié) 173
第5章 基于逆向分析小程序的爬蟲(chóng) 174
5.1 背景及目標(biāo) 174
5.2 數(shù)據(jù)來(lái)源分析 176
5.3 數(shù)據(jù)爬取方案 177
5.4 轉(zhuǎn)換數(shù)據(jù)格式 195
5.5 總結(jié) 196
第6章 從數(shù)據(jù)到產(chǎn)品 197
6.1 從一張機(jī)票說(shuō)起 197
6.2 從價(jià)值探索到交付落地 201
6.3 數(shù)據(jù)爬取 203
6.4 爬蟲(chóng)架構(gòu)設(shè)計(jì) 203
6.5 發(fā)現(xiàn)數(shù)據(jù)的價(jià)值 211
6.6 創(chuàng)新的不確定性 223
6.7 產(chǎn)品設(shè)計(jì) 226
6.8 產(chǎn)品交付 235
6.9 總結(jié) 236