四個(gè)好用卻可能不為人所熟知的Pandas函數(shù)

? ???作者:俊欣
? ? ?來源:數(shù)據(jù)分析與籃球


點(diǎn)擊藍(lán)色文字
關(guān)注我們
奉獻(xiàn)更多優(yōu)質(zhì)內(nèi)容
在數(shù)據(jù)分析的過程中,相信大家用的最多的就是Pandas庫,無論是統(tǒng)計(jì)分析還是可視化等等,Pandas都給我們提供了諸多便利。今天小編就來和大家說說在Pandas庫中那些不為人所熟知但是卻十分好用的函數(shù),希望大家看了之后也能夠受益匪淺
01PARTidxmax()和idxmin()
從函數(shù)名稱中我們就能直觀的理解這幾個(gè)函數(shù)的作用--返回最大值或者是最小值的索引,這里我們用到的數(shù)據(jù)集是“泰坦尼克號(hào)”乘客信息的數(shù)據(jù)集(是的,就是那個(gè)家喻戶曉的kaggle入門級(jí)別的項(xiàng)目的數(shù)據(jù)集),假設(shè)我們要找到年齡最小或者最大的乘客的姓名,我們可以這么做,

但是醬紫稍顯繁瑣,要是我們運(yùn)用上述提到的函數(shù)就可以,

輸出的結(jié)果都是一致,但是顯得更加的簡潔與高效
02PART? ? ? cut()
簡而言之,cut()函數(shù)能夠?qū)?shù)值劃分成等額的數(shù)份,比如還是“泰坦尼克號(hào)”數(shù)據(jù)集中有代表乘客年齡的數(shù)據(jù),我們將乘客的年齡等額的劃分成5份,

第一位乘客的年齡在16與32歲之間,第二位乘客的年齡則在32到48歲之間等等。或者你想用數(shù)字來代替圖中的區(qū)間,則可以用

03PARTnsmallest和nlargest
從函數(shù)名中,我們就能輕松的領(lǐng)悟到函數(shù)的作用了,比方說我們想找到在泰坦尼克號(hào)乘船中,年齡最大的3位乘客的姓名是什么,我們則可以

04PART? ? ?pivot_table
也許大多數(shù)人都有在Excel中使用數(shù)據(jù)透視表的經(jīng)歷,其實(shí)Pandas也提供了類似的功能,名為pivot_table,比方說我們想查找出數(shù)據(jù)集當(dāng)中,三等艙男性的平均生存率,我們可以通過層層篩選來得出結(jié)論,

但假如我們想查找船艙中不同性別不同等級(jí)的客艙的平均生還率時(shí),pivot_table就是一個(gè)非常好的工具,我們可以將性別設(shè)置成為索引,每一列代表客艙的等級(jí),計(jì)算的方式則是采用取平均,也就是mean,如下圖所示,

在Pandas庫當(dāng)中能夠幫我們顯著提效的函數(shù)還有很多,但是數(shù)據(jù)分析說到底也只是一種工具,來幫助我們發(fā)現(xiàn)與分析問題,但是要落實(shí)到解決問題,靠的依然是對(duì)業(yè)務(wù)的理解與思考。
◆?◆?◆ ?◆?◆
長按二維碼關(guān)注我們
數(shù)據(jù)森麟公眾號(hào)的交流群已經(jīng)建立,許多小伙伴已經(jīng)加入其中,感謝大家的支持。大家可以在群里交流關(guān)于數(shù)據(jù)分析&數(shù)據(jù)挖掘的相關(guān)內(nèi)容,還沒有加入的小伙伴可以掃描下方管理員二維碼,進(jìn)群前一定要關(guān)注公眾號(hào)奧,關(guān)注后讓管理員幫忙拉進(jìn)群,期待大家的加入。
管理員二維碼:
