在线观看视频三级片,苍井空一级,精品第一页,无码性生活视频,婷色五月天,色污污在线观看,久久久精品视,人人草网站

導(dǎo)讀

pandas作為Python數(shù)據(jù)分析的瑞士軍刀，集成了大量實(shí)用的功能接口，基本可以實(shí)現(xiàn)數(shù)據(jù)分析一站式處理。前期，筆者完成了一篇pandas系統(tǒng)入門教程，也針對幾個常用的分組統(tǒng)計(jì)接口進(jìn)行了介紹，今天再針對groupby分組聚合操作進(jìn)行拓展講解。

01 如何理解pandas中的groupby操作

groupby是pandas中用于數(shù)據(jù)分析的一個重要功能，其功能與SQL中的分組操作類似，但功能卻更為強(qiáng)大。理解groupby的原理可參考官網(wǎng)給出的解釋：

其中：

split：按照某一原則（groupby字段）進(jìn)行拆分，相同屬性分為一組
apply：對拆分后的各組執(zhí)行相應(yīng)的轉(zhuǎn)換操作
combine：輸出匯總轉(zhuǎn)換后的各組結(jié)果

02 分組（split）——groupby

groupby首先要指定分組原則，這也是groupby函數(shù)的第一步，其常用參數(shù)包括：

by，分組字段，可以是列名/series/字典/函數(shù)，常用為列名
axis，指定切分方向，默認(rèn)為0，表示沿著行切分
as_index，是否將分組列名作為輸出的索引，默認(rèn)為True；當(dāng)設(shè)置為False時(shí)相當(dāng)于加了reset_index功能
sort，與SQL中g(shù)roupby操作會默認(rèn)執(zhí)行排序一致，該groupby也可通過sort參數(shù)指定是否對輸出結(jié)果按索引排序

另有其他參數(shù)，但很少用到不再列出。給出幾個典型應(yīng)用示例：

示例數(shù)據(jù)

單列作為分組字段，不設(shè)置索引

單列字段的轉(zhuǎn)換格式作為分組字段

字典，根據(jù)索引對記錄進(jìn)行映射分組

函數(shù)，根據(jù)函數(shù)對索引的執(zhí)行結(jié)果進(jìn)行分組

03 轉(zhuǎn)換（apply）——agg/apply/transform

分組之后的第二個步驟即為分組轉(zhuǎn)換操作，也就是應(yīng)用（apply）一定的函數(shù)得到相應(yīng)的結(jié)果。常用的執(zhí)行操作方式有4種：

直接加聚合函數(shù)，但只能實(shí)現(xiàn)單一功能，常用聚合函數(shù)包括：mean/sum/median/min/max/last/first等，最為簡單直接的聚合方式

agg(或aggregate)，執(zhí)行更為豐富的聚合功能，常用列表、字典等形式作為參數(shù)

例如需要對如上數(shù)據(jù)表中兩門課程分別統(tǒng)計(jì)平均分和最低分，則可用列表形式傳參如下：

如果想對語文課求平均分和最低分，而數(shù)學(xué)課求平均分和最高分，則可用字典形式參數(shù)：

apply，除了agg豐富的可選聚合函數(shù)外，apply還可以自定義面向分組的聚合函數(shù)

這里apply函數(shù)實(shí)際上是一個應(yīng)用非常廣泛的轉(zhuǎn)換函數(shù)，例如面向series對象，apply函數(shù)的處理粒度是series的每個元素（標(biāo)量）；面向dataframe對象，apply函數(shù)的處理粒度是dataframe的一行或一列（series對象）；而現(xiàn)在面向groupby后的group對象，其處理粒度則是一個分組（dataframe對象）。例如，需要計(jì)算每個班級語文平均分與數(shù)學(xué)平均分之差，則用apply會是一個理想的選擇：

transform，又一個強(qiáng)大的groupby利器，其與agg和apply的區(qū)別相當(dāng)于SQL中窗口函數(shù)和分組聚合的區(qū)別：transform并不對數(shù)據(jù)進(jìn)行聚合輸出，而只是對每一行記錄提供了相應(yīng)聚合結(jié)果；而后兩者則是聚合后的分組輸出。

例如，想對比個人成績與班級平均分，則如下操作會是首選：

當(dāng)然，這一操作也可以通過mean聚合+merge連接實(shí)現(xiàn)：

實(shí)際上，pandas中幾乎所有需求都存在不止一種實(shí)現(xiàn)方式！

04 時(shí)間序列的groupby——resample

再次指出，groupby相當(dāng)于是按照某一規(guī)則對數(shù)據(jù)進(jìn)行分組聚合，當(dāng)分組的規(guī)則是時(shí)間序列時(shí)，還存在另一種特殊的分組方式——重采樣resample。理解groupby的split-apply-combine三步走處理流程，那么自然也很容易理解resample處理流程：按照時(shí)間split——apply——combine。同時(shí)，也正因?yàn)閞esample是一種特殊的分組聚合，所以groupby的4種轉(zhuǎn)換操作自然也都適用于resample。

生成以下含有時(shí)間序列的樣例數(shù)據(jù)：

需統(tǒng)計(jì)每15天的平均分?jǐn)?shù)，用resample可實(shí)現(xiàn)如下：

當(dāng)然，這是直接用了聚合函數(shù)，更復(fù)雜的例如agg、apply和transform等用法也是一樣的。換句話說，resample與groupby的核心區(qū)別僅在于split階段：前者按照時(shí)間間隔進(jìn)行分組，而后者是按照定義的某種規(guī)則進(jìn)行分組。

另外，還可將groupby與resample鏈?zhǔn)绞褂?，但僅可以是resample在groupby之后，反之則會報(bào)錯。例如：

需要指出，resample等價(jià)于groupby操作一般是指下采樣過程；同時(shí)，resample也支持上采樣，此時(shí)需設(shè)置一定規(guī)則進(jìn)行插值填充。

python爬蟲人工智能大數(shù)據(jù)公眾號

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

Pandas中g(shù)roupby的這些用法你都知道嗎？