送書 | Python 3 爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn)
又到了每周三的送書時刻啦,今天給大家?guī)硪槐九老x的書。

(文末查看送書規(guī)則)
編輯推薦
這本Python爬蟲技術(shù)書是一個完整大數(shù)據(jù)應用框架:從數(shù)據(jù)收集、分析到數(shù)據(jù)可視化、數(shù)據(jù)建模。各章節(jié)以實際案例為出發(fā)點,適合對大數(shù)據(jù)分析、爬蟲技術(shù)應用感興趣的小伙伴們學習。
內(nèi)容概要
本書是一本通過實戰(zhàn)教初學者學習爬取數(shù)據(jù)、清洗和組織數(shù)據(jù)進行分析和可視化的Python 讀物。書中案例均經(jīng)過實戰(zhàn)檢驗,筆者在實踐過程中深感采集數(shù)據(jù)、清洗和組織數(shù)據(jù)的重要性,作為一名數(shù)據(jù)行業(yè)的“碼農(nóng)”,數(shù)據(jù)就是沃土,沒有數(shù)據(jù),我們將無田可耕。
本書共13 章,包括6 個核心主題,其一是Python 基礎入門,包括環(huán)境配置、基本操作、數(shù)據(jù)類型、語句和函數(shù);其二是Python 爬蟲的構(gòu)建,包括網(wǎng)頁結(jié)構(gòu)解析、爬蟲流程設計、代碼優(yōu)化、爬蟲效率優(yōu)化、無線端的數(shù)據(jù)采集、容錯處理、反防爬蟲、表單交互和模擬頁面點擊;其三是Python數(shù)據(jù)庫應用,包括MongoDB、MySQL 在Python 中的連接與應用;其四是數(shù)據(jù)清洗和組織,包括NumPy 數(shù)組知識,以及pandas 數(shù)據(jù)的讀寫、分組、變形,缺失值、異常值和重復值處理,時序數(shù)據(jù)處理和正則表達式的使用等;其五是綜合應用實例,幫助讀者貫穿爬蟲、數(shù)據(jù)清洗與組織的過程;最后是數(shù)據(jù)可視化,包括matplotlib 和pyecharts 兩個庫的使用,涉及餅圖、柱形圖、線圖、詞云圖等圖形,幫助讀者進入可視化的殿堂。
本書以實戰(zhàn)為主,適合Python 初學者及高等院校相關(guān)專業(yè)的學生閱讀,也適合Python 培訓機構(gòu)作為實驗教材。
前言
Python 是軍刀型的開源工具,被廣泛應用于Web 開發(fā)、爬蟲、數(shù)據(jù)清洗、自然語言處理、機器學習和人工智能等方面,而且Python 的語法簡潔易讀,這讓許多編程入門者不再望而卻步,因此,Python 在最近幾年非常受歡迎,各行各業(yè)的技術(shù)人員都開始使用Python。
本書內(nèi)容來自筆者在高校授課的內(nèi)容,主要介紹如何運用Python 工具獲取電商平臺的頁面數(shù)據(jù),并對數(shù)據(jù)進行清洗和存儲。本書簡化了Python 基礎部分,從而保證有足夠的篇幅來介紹爬蟲、數(shù)據(jù)清洗和可視化的內(nèi)容。
本書第1版自出版以來受到各界人士的青睞,為了給讀者更好的體驗,第2 版的代碼和數(shù)據(jù)都保存在Gitee 上,讀者可通過訪問筆者的Gitee 主頁獲取資料。第2 版在內(nèi)容上新增了習題、手機App 數(shù)據(jù)的采集方法和Selenium 的基礎操作,其中習題包含選擇題、判斷題、填空題、實操題和應用題。
本書采用的Python 版本是Python 3.6.2。雖然目前一些高校和開發(fā)者在使用Python 2.7,但是Python 團隊在2020 年1 月1 日停止了對Python 2.7 的支持、更新,因此Python 2.X 轉(zhuǎn)向Python 3.X是大勢所趨。
本書第1 章簡單介紹Python 和相關(guān)的IDE,如果讀者完全沒有Python 基礎,那么建議選購一本基礎書作為輔助。第2~7 章介紹爬蟲的實例,實現(xiàn)從最簡單的爬蟲到相對較復雜的爬蟲,涉及的爬蟲包有requests、Scrapy 和Selenium,采集對象有PC 網(wǎng)頁和手機App。鑒于實例的限制,本書的爬蟲內(nèi)容沒有涉及代理服務器和驗證碼處理等問題。第8 章介紹了4 個知名網(wǎng)站的采集案例。
第9 章介紹在Python 中如何連接并操作數(shù)據(jù)庫。第10 章介紹了NumPy 及其用法。第11 章詳細介紹了pandas 的功能,pandas 是Python 數(shù)據(jù)清洗和建模中非常重要的庫。第12 章用兩個完整的案例展示了從爬蟲到建模的過程。第13 章介紹了Python 的數(shù)據(jù)可視化,選用的庫是matplotlib 和pyecharts,其中詳細介紹了pyecharts。鑒于筆者水平有限,書中不足之處請讀者不吝指教。
網(wǎng)絡爬蟲作為一項技術(shù),更應該服務于社會。在使用該技術(shù)的過程中,應遵守Robots 協(xié)議。同時,需要注意對數(shù)據(jù)所涉及的知識產(chǎn)權(quán)和隱私信息進行保護。另外,在采集數(shù)據(jù)時,需要注意禮貌,即不頻繁地請求網(wǎng)頁,以防止給數(shù)據(jù)提供者的服務器造成不良影響。在使用所采集的數(shù)據(jù)時,需要注意是否涉及商業(yè)利益和相關(guān)法律。本書中所使用的案例皆為測試案例,僅供讀者學習使用,本書中的URL 均做了處理。
查看本書
點擊即可查看本書詳情

送書規(guī)則
【掃一掃添加小編】
【掃一掃關(guān)注我】
