數(shù)據(jù)預(yù)處理教程來了
預(yù)處理是數(shù)據(jù)分析中必不可少的工程!
預(yù)處理之所以重要,是因?yàn)樗鼤?huì)對(duì)后續(xù)的數(shù)據(jù)分析質(zhì)量、模型預(yù)測(cè)精度產(chǎn)生極大影響。我們?cè)趯?shí)際項(xiàng)目中拿到的數(shù)據(jù)往往是雜亂無章的(數(shù)據(jù)缺失、數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)等),要想應(yīng)用恰當(dāng)?shù)姆治龇椒ǖ玫嚼硐虢Y(jié)果,就必須通過一些方法提高數(shù)據(jù)質(zhì)量,而這就是預(yù)處理的工作。
然而,預(yù)處理如此重要,市面上相關(guān)圖書卻少之又少,原因在于預(yù)處理是一項(xiàng)難以總結(jié)的技術(shù),其知識(shí)不夠體系。這就導(dǎo)致我們只能得到一些碎片式的信息,無法系統(tǒng)了解。專業(yè)資料之匱乏,可能也是下面這本《數(shù)據(jù)預(yù)處理從入門到實(shí)戰(zhàn):基于SQL、R、Python》原版一上市就迅速進(jìn)入日亞計(jì)算機(jī)類圖書銷量排行榜No1,并在3個(gè)月內(nèi)重印4次的原因之一。

這本書系統(tǒng)總結(jié)了預(yù)處理的常見任務(wù),言簡(jiǎn)意賅,255頁,全書結(jié)構(gòu)如下:

這本書的幾大特色:
本書采用問題驅(qū)動(dòng)式結(jié)構(gòu),先拋出常見預(yù)處理任務(wù),引導(dǎo)讀者思考如何實(shí)現(xiàn)。像這樣帶著問題學(xué)習(xí),可以大大提高學(xué)習(xí)效果,讓理解更深入。

(本書例題示例)
分別用SQL、R、Python對(duì)比解決相同的案例問題,可以了解各語言在處理各種預(yù)處理問題時(shí)有哪些優(yōu)缺點(diǎn),從而根據(jù)情況選擇合適的語言,提升預(yù)處理效率。
對(duì)于每道例題,都同時(shí)給出用SQL、R、Python3種語言縮寫的一般代碼與理想代碼,并對(duì)代碼中的關(guān)鍵點(diǎn)進(jìn)行說明。讀者不僅可以邊閱讀邊思考如何修改一般代碼,還可以通過與理想代碼的對(duì)比明白如何優(yōu)化代碼。

(案例之一)

(針對(duì)案例首先給出預(yù)處理步驟,再分步驟詳細(xì)講解)





