關(guān)于我們
書單推薦
新書推薦

Python爬蟲實(shí)戰(zhàn)基礎(chǔ)

Python爬蟲實(shí)戰(zhàn)基礎(chǔ)

定  價:109 元

        

  • 作者:李科均
  • 出版時間:2023/6/1
  • ISBN:9787302626565
  • 出 版 社:清華大學(xué)出版社
  • 中圖法分類:TP311.561 
  • 頁碼:428
  • 紙張:
  • 版次:1
  • 開本:
9
7
6
8
2
7
6
3
5
0
6
2
5
本書介紹Python網(wǎng)絡(luò)爬蟲開發(fā)從業(yè)者應(yīng)掌握的基礎(chǔ)技能。本書以網(wǎng)絡(luò)爬蟲為核心,涉及大大小小數(shù)十個能力體系。本書的前半部分介紹爬蟲開發(fā)的基礎(chǔ)知識,包括爬蟲開發(fā)必備的環(huán)境搭建方法、開發(fā)中常用工具的使用方法和技巧、網(wǎng)頁的構(gòu)成原理和網(wǎng)頁信息提取的方法、常用數(shù)據(jù)庫的使用方法和應(yīng)用場景,如通過Redis內(nèi)置的布隆過濾器實(shí)現(xiàn)大規(guī)模URL地址的去重任務(wù)。本書的后半部分主要講解網(wǎng)絡(luò)爬蟲開發(fā)所需的必要能力,包括網(wǎng)絡(luò)通信的底層原理、背后涉及的互聯(lián)網(wǎng)協(xié)議標(biāo)準(zhǔn)及如何對這些協(xié)議進(jìn)行分析并加以利用,使用Docker部署網(wǎng)絡(luò)爬蟲所需的環(huán)境和爬蟲項(xiàng)目的打包部署,使用網(wǎng)絡(luò)爬蟲的核心請求庫實(shí)現(xiàn)與服務(wù)器端和客戶端的通信和交互,使用自動化神器Selenium對復(fù)雜的爬蟲需求進(jìn)行快速實(shí)現(xiàn),以及網(wǎng)絡(luò)爬蟲的多任務(wù)開發(fā),重點(diǎn)是通過多線程和多進(jìn)程來提高爬蟲效率。

本書面向準(zhǔn)備從事或正在從事網(wǎng)絡(luò)爬蟲開發(fā)的從業(yè)者以及對網(wǎng)絡(luò)爬蟲有濃厚興趣的愛好者。
 你還可能感興趣
 我要評論
您的姓名   驗(yàn)證碼: 圖片看不清?點(diǎn)擊重新得到驗(yàn)證碼
留言內(nèi)容