網絡爬蟲是當今獲取數(shù)據不可或缺的重要手段。本書講解了Python 爬蟲的基礎知識和必備技能,幫助零基礎的讀者快速入門并熟練使用爬蟲。
全書共8 章!酢 章講解Python 開發(fā)環(huán)境的安裝與配置以及Python 的基礎語法知識。第□ 章講解如何運用Requests 庫和Selenium 庫獲取網頁源代碼。第3 章講解如何運用正則表達式和BeautifulSoup 庫解析和提取數(shù)據。第4 章深入講解Selenium 庫在商業(yè)實戰(zhàn)中的進階應用。第5 章講解爬蟲數(shù)據的處理與可視化。第6 章講解爬蟲數(shù)據結構化神器pandas 庫,以及如何通過Python 在MySQL 數(shù)據庫中讀寫數(shù)據。第7 章講解如何運用多線程和多進程技術提高爬蟲效率。第8 章講解如何運用IP 代理應對網站的反爬機制。
本書對于編程新手來說非常友好,從Python 基礎到爬蟲原理再到實戰(zhàn)應用,循序漸進地幫助讀者打好基礎。對于有一定Python 爬蟲基礎的讀者,本書也針對實戰(zhàn)中常見的疑點和難點提供了解決技巧。
本書講解了Python 爬蟲的基礎知識和必備技能,幫助零基礎的讀者快速入門并熟練使用爬蟲。本書囊括了媒體熱點采集、金融數(shù)據爬取、網絡文件下載、電商數(shù)據研究等四大類4□個爬蟲實戰(zhàn)案例,共計3000余行代碼,涉及17個網站的數(shù)據與文件獲取,詳解了Requests 庫、Selenium 庫、正則表達式、BeautifulSoup 庫、多線程多進程爬蟲、IP 反爬機制應對等知識。
筆者編寫的《Python金融大數(shù)據挖掘與分析全流程詳解》于□019年出版面市后,陸續(xù)有不少讀者表示對該書的爬蟲部分非常感興趣,想做進一步的學習。筆者由此萌生了一個想法:專門針對Python爬蟲技術編寫一套書籍,在保留之前核心內容的基礎上,新增更多實戰(zhàn)案例,方便讀者在練中學,并體會Python爬蟲在實戰(zhàn)中的應用。
書稿編寫完成后,為了更好地滿足不同水平讀者的需求,方便他們根據自身情況更靈活地學習,筆者決定將書稿分為兩冊出版:□□冊為《零基礎學Python網絡爬蟲案例實戰(zhàn)全流程詳解(入門與提高篇)》,主要針對編程零基礎的讀者;第二冊為《零基礎學Python網絡爬蟲案例實戰(zhàn)全流程詳解(高級進階篇)》,主要針對有一定Python爬蟲編程基礎并且需要進階提高的讀者。
本書為《零基礎學Python網絡爬蟲案例實戰(zhàn)全流程詳解(入門與提高篇)》,分8章講解了Python爬蟲的基礎知識和必備技能,幫助零基礎的讀者快速入門并熟練使用爬蟲。
□□章從Python開發(fā)環(huán)境的安裝與配置講起,循序漸進地過渡到Python的基礎語法知識,包括變量、數(shù)據類型、語句、函數(shù)與庫等,讓新手讀者能夠自己輸入簡單的代碼并使其運行起來。
任何爬蟲任務的起點都是獲取網頁源代碼。第□章講解了Python爬蟲中用于獲取網頁源代碼的兩個核心庫—Requests庫和Selenium庫,并簡單介紹了網頁結構和HTML標簽的知識,為第3章學習數(shù)據的解析與提取做好鋪墊。
獲取網頁源代碼后,接著需要從中解析與提取數(shù)據。第3章講解了Python爬蟲中解析與提取數(shù)據的兩種核心方法—正則表達式和BeautifulSoup庫,并通過豐富的案例進行實戰(zhàn)演練,包括百度新聞、證券日報網、中證網、新浪微博的數(shù)據爬取,以及上海證券交易所PDF文件和豆瓣電影海報圖片的下載等。
講解完Python爬蟲的基礎知識和基本技能,第4章進一步深入講解爬蟲神器Selenium庫,并通過案例講解了商業(yè)實戰(zhàn)中常用的大量進階爬蟲技術,案例包括新浪財經股票行情數(shù)據爬取、東方財富網(股吧、新聞、研報)相關數(shù)據爬取、上海證券交易所問詢函信息爬取及PDF文件下載、銀行間拆借利率爬取、雪球股票評論信息爬取、京東商品評價信息爬取、淘寶天貓商品銷量數(shù)據爬取、網頁自動投票等。
第5章講解爬蟲數(shù)據的處理與可視化,包括數(shù)據清洗、文本內容過濾、亂碼問題處理、輿情評分、中文分詞、詞云圖繪制等,讓讀者可以對獲取的數(shù)據進行深入的整理與挖掘。
第6章講解爬蟲數(shù)據結構化與數(shù)據存儲。首先介紹了爬蟲數(shù)據結構化神器pandas庫,并通過多個案例進行實戰(zhàn)演練,包括新浪財經資產負債表獲取、百度新聞文本數(shù)據結構化、百度愛企查股權穿透研究、天天基金網股票型基金信息爬取、集思錄可轉債信息爬取、東方財富網券商研報信息爬取等。然后介紹了用于存儲和管理數(shù)據的MySQL數(shù)據庫,以及如何通過Python在MySQL數(shù)據庫中讀寫數(shù)據。
第7章講解如何運用多線程和多進程技術提高爬蟲效率,重點分析了線程和進程的概念、多線程和多進程的邏輯,并通過百度新聞的多線程和多進程爬取進行實戰(zhàn)演練。
在爬蟲任務中□讓人煩惱的就是遇到網站的反爬機制,因此,第8章講解了應對反爬機制的常用手段—IP代理的原理和使用方法,并以爬取微信公眾號文章為例對IP代理進行了實戰(zhàn)演練。
本書對于編程零基礎的讀者來說非常友好,從Python基礎到爬蟲原理再到實戰(zhàn)應用,循序漸進地幫助讀者打好基礎。對于有一定Python爬蟲基礎的讀者,本書也針對實戰(zhàn)中常見的疑點和難點提供了解決技巧。
讀者如果想進一步學習反爬機制應對、手機App內容爬取、爬蟲框架、爬蟲云服務器部署等技術,可以閱讀《零基礎學Python網絡爬蟲案例實戰(zhàn)全流程詳解(高級進階篇)》。
由于筆者水平有限,書中難免有不足之處,懇請廣大讀者批評指正。讀者除了可掃描封底上的二維碼關注公眾號獲取資訊以外,也可通過“本書學習資源”中列出的方法與我們交流。