太硬核!只需一行代碼就可以在Python中創(chuàng)建數(shù)據(jù)可視化!
相信每個(gè)人都聽(tīng)說(shuō)過(guò)這句話:一圖勝千言,這就是為什么數(shù)據(jù)可視化對(duì)于任何項(xiàng)目或報(bào)告都是一個(gè)重要的環(huán)節(jié)。但是我們都知道,創(chuàng)建數(shù)據(jù)可視化有時(shí)候可能很耗時(shí)都。
今天本篇文章會(huì)介紹一個(gè) Python 工具包:QuickDA,它可以很容易解決這個(gè)問(wèn)題。
安裝
要安裝 QuickDA,在終端并輸入如下命令
pip install QuickDA
就這么簡(jiǎn)單。你現(xiàn)在可以使用它了。
現(xiàn)在我們把我們需要的都導(dǎo)入
# Importing libraries
from quickda.explore_data import *
from quickda.clean_data import *
from quickda.explore_numeric import *
from quickda.explore_categoric import *
from quickda.explore_numeric_categoric import *
from quickda.explore_time_series import *
創(chuàng)建可視化數(shù)字特征
正如我在標(biāo)題中提到的,你可以用一行代碼創(chuàng)建可視化。有幾種方法都可以做到,我們會(huì)檢查每一種方法。第一個(gè)是為數(shù)值數(shù)據(jù)創(chuàng)建多個(gè)可視化。代碼如下:
eda_num(data)

如上圖所見(jiàn),使用一行代碼,我創(chuàng)建了多個(gè)數(shù)據(jù)可視化。QuickDA 為每個(gè)特征創(chuàng)建箱線圖和直方圖。通常,只有一個(gè)或兩個(gè)數(shù)據(jù)可視化就可以完成這項(xiàng)工作。幸運(yùn)的是,QuickDA 能夠使用以下代碼為選定的數(shù)據(jù)創(chuàng)建可視化效果:
eda_num(data[['column_1', 'columns_2', 'column_n']])
相關(guān)矩陣
需要相關(guān)矩陣嗎?沒(méi)問(wèn)題。你可以鍵入以下代碼,并檢查功能的關(guān)聯(lián)程度。
eda_num(data, method="correlation")
說(shuō)實(shí)話,我不喜歡 QuickDA 的相關(guān)矩陣的風(fēng)格,但它確實(shí)起到了作用。我們可以很容易地看到哪些特征與紅色高度相關(guān)。
分類特征可視化
現(xiàn)在,讓我們看一下如何為分類特性創(chuàng)建一些可視化效果。對(duì)于這個(gè),你需要選擇要學(xué)習(xí)的功能。
eda_cat(data, x='column_name')
我們可以看到 QuickDA 創(chuàng)建了一個(gè)好看的可視化功能,用于顯示每個(gè)值的計(jì)數(shù)和一個(gè)帶有數(shù)字描述的表。很酷,對(duì)吧?現(xiàn)在,假設(shè)你想了解數(shù)據(jù)是如何為每個(gè)性別分布的。你也可以這樣做,只需添加一個(gè)y值。
eda_cat(data, x='column_name', y='column_name')
特征重要性
QuickDA 可以做的另一件很酷的事情是,我們可以快速獲得特征的重要性以及特征如何預(yù)測(cè)特定目標(biāo)。它對(duì)于機(jī)器學(xué)習(xí)非常方便,并且可以幫助你消除不相關(guān)的特性。
eda_numcat(data, method='pps', x='target_feature')
相關(guān)性
QuickDA 可以輕松地創(chuàng)建相關(guān)可視化。通常,使用 Matplotlib 很容易創(chuàng)建相關(guān)可視化,但是有其他方法可以很好地實(shí)現(xiàn)。
eda_numcat(data, x='x_value', y='y_value', hue='color_setup', method='relationship')
時(shí)間序列
時(shí)間序列可視化也可以很容易地完成。有趣的是,QuickDA 使用不同的庫(kù)進(jìn)行可視化,如 Matplotlib、Seaborn 和 plotlyexpress 。例如,對(duì)于時(shí)間序列,使用Plotly Express。
數(shù)據(jù)透視表
最后但并非最不重要的一點(diǎn)是,QuickDA 有一個(gè)很酷的特性,它不是一個(gè)很好的數(shù)據(jù)可視化,但是它非???。它使創(chuàng)建數(shù)據(jù)透視表成為可能。如果你已經(jīng)工作或?qū)W習(xí)數(shù)據(jù)分析,那么你已經(jīng)知道透視表的重要性。
eda_numcat(data, x=['column_1, column_2'], y=None, method='pivot')
結(jié)論
QuickDA 還可以做很多比較酷的事情。我建議你使用數(shù)據(jù)集進(jìn)行嘗試,我相信你會(huì)看到它有多么強(qiáng)大。你可以在這個(gè)筆記本上找到更多的代碼。
https://github.com/ismael-araujo/Testing-Libraries/tree/main/QuickEDA

1. 關(guān)注下方公眾號(hào),點(diǎn)擊右上角;
2. 在下方后臺(tái)回復(fù)關(guān)鍵詞「數(shù)據(jù)科學(xué)」快速下載:
