↓推薦關注↓

來源丨數(shù)據(jù)STUDIO

探索性數(shù)據(jù)分析是數(shù)據(jù)科學模型開發(fā)和數(shù)據(jù)集研究的重要組成部分之一。在拿到一個新數(shù)據(jù)集時首先就需要花費大量時間進行EDA來研究數(shù)據(jù)集中內在的信息。自動化的EDA Python包可以用幾行Python代碼執(zhí)行EDA。在本文中整理了10個可以自動執(zhí)行EDA并生成有關數(shù)據(jù)的見解的Python包，看看他們都有什么功能，能在多大程度上幫我們自動化解決EDA的需求。

DTale
Pandas-profiling
sweetviz
autoviz
dataprep
KLib
dabl
speedML
datatile
edaviz

1、D-Tale

D-Tale使用Flask作為后端、React前端并且可以與ipython notebook和終端無縫集成。D-Tale可以支持Pandas的DataFrame, Series, MultiIndex, DatetimeIndex和RangeIndex。

import dtale
import pandas as pd
dtale.show(pd.read_csv("titanic.csv"))

D-Tale庫用一行代碼就可以生成一個報告，其中包含數(shù)據(jù)集、相關性、圖表和熱圖的總體總結，并突出顯示缺失的值等。D-Tale還可以為報告中的每個圖表進行分析，上面截圖中我們可以看到圖表是可以進行交互操作的。

2、Pandas-Profiling

Pandas-Profiling可以生成Pandas DataFrame的概要報告。panda-profiling擴展了pandas DataFrame df.profile_report()，并且在大型數(shù)據(jù)集上工作得非常好，它可以在幾秒鐘內創(chuàng)建報告。

#Install the below libaries before importing
import pandas as pd
from pandas_profiling import ProfileReport

#EDA using pandas-profiling
profile = ProfileReport(pd.read_csv('titanic.csv'), explorative=True)

#Saving results to a HTML file
profile.to_file("output.html")

3、Sweetviz

Sweetviz是一個開源的Python庫，只需要兩行Python代碼就可以生成漂亮的可視化圖，將EDA(探索性數(shù)據(jù)分析)作為一個HTML應用程序啟動。Sweetviz包是圍繞快速可視化目標值和比較數(shù)據(jù)集構建的。

import pandas as pd
import sweetviz as sv

#EDA using Autoviz
sweet_report = sv.analyze(pd.read_csv("titanic.csv"))

#Saving results to HTML file
sweet_report.show_html('sweet_report.html')

Sweetviz庫生成的報告包含數(shù)據(jù)集、相關性、分類和數(shù)字特征關聯(lián)等的總體總結。

4、AutoViz

Autoviz包可以用一行代碼自動可視化任何大小的數(shù)據(jù)集，并自動生成HTML、bokeh等報告。用戶可以與AutoViz包生成的HTML報告進行交互。

import pandas as pd
from autoviz.AutoViz_Class import AutoViz_Class

#EDA using Autoviz
autoviz = AutoViz_Class().AutoViz('train.csv')

5、Dataprep

Dataprep是一個用于分析、準備和處理數(shù)據(jù)的開源Python包。DataPrep構建在Pandas和Dask DataFrame之上，可以很容易地與其他Python庫集成。

DataPrep的運行速度這10個包中最快的，他在幾秒鐘內就可以為Pandas/Dask DataFrame生成報告。

from dataprep.datasets import load_dataset
from dataprep.eda import create_report

df = load_dataset("titanic.csv")
create_report(df).show_browser()

6、Klib

klib是一個用于導入、清理、分析和預處理數(shù)據(jù)的Python庫。

import klib
import pandas as pd

df = pd.read_csv('DATASET.csv')
klib.missingval_plot(df)

klib.corr_plot(df_cleaned, annot=False)

klib.dist_plot(df_cleaned['Win_Prob'])

klib.cat_plot(df, figsize=(50,15))

klibe雖然提供了很多的分析函數(shù)，但是對于每一個分析需要我們手動的編寫代碼，所以只能說是半自動化的操作，但是如果我們需要更定制化的分析，他是非常方便的。

7、Dabl

Dabl不太關注單個列的統(tǒng)計度量，而是更多地關注通過可視化提供快速概述，以及方便的機器學習預處理和模型搜索。

dabl中的Plot()函數(shù)可以通過繪制各種圖來實現(xiàn)可視化，包括:

目標分布圖
散點圖
線性判別分析

import pandas as pd
import dabl

df = pd.read_csv("titanic.csv")
dabl.plot(df, target_col="Survived")

8、Speedml

SpeedML是用于快速啟動機器學習管道的Python包。SpeedML整合了一些常用的ML包，包括 Pandas，Numpy，Sklearn，Xgboost 和 Matplotlib，所以說其實SpeedML不僅僅包含自動化EDA的功能。

SpeedML官方說，使用它可以基于迭代進行開發(fā)，將編碼時間縮短了70％。

from speedml import Speedml

sml = Speedml('../input/train.csv', '../input/test.csv',
            target = 'Survived', uid = 'PassengerId')
sml.train.head()

sml.plot.correlate()

sml.plot.distribute()

sml.plot.ordinal('Parch')

sml.plot.ordinal('SibSp')

sml.plot.continuous('Age')

9、DataTile

DataTile（以前稱為Pandas-Summary）是一個開源的Python軟件包，負責管理，匯總和可視化數(shù)據(jù)。DataTile基本上是PANDAS DataFrame describe（）函數(shù)的擴展。

import pandas as pd
from datatile.summary.df import DataFrameSummary

df = pd.read_csv('titanic.csv')
dfs = DataFrameSummary(df)
dfs.summary()

10、edaviz

edaviz是一個可以在Jupyter Notebook和Jupyter Lab中進行數(shù)據(jù)探索和可視化的python庫，他本來是非常好用的，但是后來被磚廠(Databricks)收購并且整合到bamboolib 中，所以這里就簡單的給個演示。

總結

在本文中，我們介紹了10個自動探索性數(shù)據(jù)分析Python軟件包，這些軟件包可以在幾行Python代碼中生成數(shù)據(jù)摘要并進行可視化。通過自動化的工作可以節(jié)省我們的很多時間。

Dataprep是我最常用的EDA包，AutoViz和D-table也是不錯的選擇，如果你需要定制化分析可以使用Klib，SpeedML整合的東西比較多，單獨使用它啊進行EDA分析不是特別的適用，其他的包可以根據(jù)個人喜好選擇，其實都還是很好用的，最后edaviz就不要考慮了，因為已經(jīng)不開源了。

長按或掃描下方二維碼，后臺回復：加群，即可申請入群。一定要備注：來源+研究方向+學校/公司，否則不拉入群中，見諒！

（長按三秒，進入后臺）


推薦閱讀
利用Python做一個漂亮小姐姐詞云跳舞視頻
30 個Python代碼實現(xiàn)的常用功能，精心整理版
神器！三行 Python 代碼輕松提取 PDF 表格數(shù)據(jù)
四款可視化工具，解決99%的可視化大屏需求

YYDS！幾行Python代碼，就實現(xiàn)了全面自動探索性數(shù)據(jù)分析

↓推薦關注↓

1、D-Tale

2、Pandas-Profiling

3、Sweetviz

4、AutoViz

5、Dataprep

6、Klib

7、Dabl

8、Speedml

9、DataTile