對(duì)比SQL,學(xué)習(xí)Pandas操作:group_concat如何實(shí)現(xiàn)?
本文主要講解的是如何利用pandas來(lái)實(shí)現(xiàn)SQL中的group_concat操作。
group_concat
SQL或者M(jìn)ySQL中的group_concat到底實(shí)現(xiàn)的什么功能呢?看例子來(lái)說(shuō)明。
下面是表information中存儲(chǔ)的一份簡(jiǎn)單數(shù)據(jù),兩個(gè)字段id和name:
+----+-----+
|?id?|?name?|
+------+---+
|1??|?10???|
|1??|?20???|
|1??|?20???|
|2??|?20???|
|3??|?200??|
|3??|?500??|
方式1:默認(rèn)情形
我們以id來(lái)進(jìn)行分組,將name放在同一行,同時(shí)用逗號(hào)隔開(kāi):
select?
????id
????,group_concat(name)??as?name
from?information?
group?by?id;
結(jié)果為:
|id|??name|
|1?|10,20,20|
|2?|20??????|
|3?|200,500|
方式2:指定符號(hào)
上面的結(jié)果中默認(rèn)是逗號(hào)(英文逗號(hào))隔開(kāi)的,我們還可以自己指定符號(hào):
select?
????id
????,group_concat(name?separator?';')??as?name
from?information?
group?by?id;
結(jié)果則顯示為:
|id|??name|
|1?|10;20;20|???--?分號(hào)隔開(kāi)
|2?|20??????|
|3?|200;500|
方式3:去重顯示
我們還可以以id分組,將冗余(重復(fù)的)的數(shù)據(jù)去掉,然后將剩下的放在一起;比如id=1的數(shù)據(jù)重復(fù)了20,我們希望只顯示一個(gè)20:
加上了關(guān)鍵詞distinct :
select?
????id
????,group_concat(distinct?name)??as?name
from?information?
group?by?id;
相應(yīng)的結(jié)果顯示為:
|id|??name|
|1?|10,20|???--?只顯示了一個(gè)20
|2?|20????|
|3?|200,500|
方式4:降序排列
在上面的全部情形中,數(shù)據(jù)都是升序排列,我們還可以降序:
select?
????id
????,group_concat(name?order?by?name?desc)??as?name??
from?information?
group?by?id;
那么顯示的結(jié)果為:
--?結(jié)果已經(jīng)降序排列了
|id|??name|
|1?|20,20,10|
|2?|20????|
|3?|500,200|
上面介紹的就是各種group_concat實(shí)現(xiàn)的效果,下面利用pandas來(lái)實(shí)現(xiàn)。
模擬數(shù)據(jù)
import?pandas?as?pd
import?numpy?as?np
df?=?pd.DataFrame({
??"name":["小明","小明","小明","小紅","小張","小張"],
??"score":[10,20,20,20,200,500]
})
df

很清楚,我們需要將小明、小紅、小張的score分組放在一起。
方式1:默認(rèn)分組
實(shí)現(xiàn)默認(rèn)分組情形,升序排列且不去重。主要是3個(gè)步驟:
1、通過(guò)groupby進(jìn)行分組
2、分組之后通過(guò)list將score全部放在一個(gè)列表中
3、第三步只是進(jìn)行了索引重排

方式2:指定符號(hào)
指定特定的符號(hào),我們使用的join函數(shù)。因?yàn)檫@個(gè)函數(shù)只能操作字符串,所以我們需要將df中的數(shù)值型數(shù)據(jù)轉(zhuǎn)成字符串:
df.astype(str)

方式3:去重顯示
通過(guò)name字段進(jìn)行分組,再對(duì)score采用unique函數(shù)。下面只是進(jìn)行所以重排

方式4:降序排列
1、我們先實(shí)現(xiàn)默認(rèn)的升序排列
2、對(duì)score字段再次使用apply函數(shù),通過(guò)對(duì)列表使用sorted函數(shù)來(lái)實(shí)現(xiàn)降序排列

親愛(ài)的朋友,學(xué)會(huì)了嗎?
