1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        數(shù)據(jù)預(yù)處理的 10 個小技能,附 Pandas 實現(xiàn)

        共 782字,需瀏覽 2分鐘

         ·

        2020-11-29 02:17

        Python與算法社區(qū)
        442篇原創(chuàng),干貨滿滿
        值得星標(biāo)


        01

        02

        03


        三步加星標(biāo)




        你好,我是 zhenguo

        數(shù)據(jù)預(yù)處理常用的處理步驟,包括找出異常值、處理缺失值、過濾不合適值、去掉重復(fù)行、分箱、分組、排名、category轉(zhuǎn)數(shù)值等,下面使用 pandas 解決這些最常見的預(yù)處理任務(wù)。

        找出異常值常用兩種方法:

        • 標(biāo)準(zhǔn)差法:異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值
        • 分位數(shù)法:小于 1/4分位數(shù)減去 1/4和3/4分位數(shù)差的1.5倍,大于3/4減去 1/4和3/4分位數(shù)差的1.5倍,都為異常值

        技能1 :標(biāo)準(zhǔn)差法

        import?pandas?as?pd

        df?=?pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})

        #?異常值平均值上下1.96個標(biāo)準(zhǔn)差區(qū)間以外的值
        meangrade?=?df['a'].mean()
        stdgrade?=?df['a'].std()
        toprange?=?meangrade?+?stdgrade?*?1.96
        botrange?=?meangrade?-?stdgrade?*?1.96

        #?過濾區(qū)間外的值
        copydf?=?df
        copydf?=?copydf.drop(copydf[copydf['a']
        ????????>?toprange].index)
        copydf?=?copydf.drop(copydf[copydf['a']
        ????????copydf

        技能2:分位數(shù)法:

        q1?=?df['a'].quantile(.25)
        q3?=?df['a'].quantile(.75)
        iqr?=?q3-q1
        toprange?=?q3?+?iqr?*?1.5
        botrange?=?q1?-?iqr?*?1.5

        copydf?=?df
        copydf?=?copydf.drop(copydf[copydf['a']
        ????????>?toprange].index)
        copydf?=?copydf.drop(copydf[copydf['a']
        ????????copydf

        技能3:處理空值

        np.nan 是 pandas 中常見空值,使用 dropna 過濾空值,axis 0 表示按照行,1 表示按列,how 默認(rèn)為 any ,意思是只要有一個 nan 就過濾某行或某列,all 所有都為 nan

        #?axis?0?表示按照行,all?此行所有值都為?nan
        df.dropna(axis=0,?how='all')

        技能4:充填空值

        空值一般使用某個統(tǒng)計值填充,如平均數(shù)、眾數(shù)、中位數(shù)等,使用函數(shù) fillna:

        #?使用a列平均數(shù)填充列的空值,inplace?true表示就地填充
        df["a"].fillna(df["a"].mean(),?inplace=True)

        技能5:修復(fù)不合適值

        假如某門課最高分100,如果出現(xiàn) -2, 120 這樣的值,顯然不合理,使用布爾類型的Series對象修改數(shù)值:

        df.loc[(df['a']?-2,'a')]?=?0
        df.loc[(df['a']?>=?100,'a')]?=?100

        技能6:過濾重復(fù)值

        過濾某列重復(fù)值,使用 drop_duplicated 方法,第一個參數(shù)為列名,keep關(guān)鍵字等于last:最后一次出現(xiàn)此值行:

        df.drop_duplicates(['Names'],?keep='last')

        技能7:apply 元素級:去掉特殊字符

        某列單元格含有特殊字符,如標(biāo)點符號,使用元素級操作方法 apply 干掉它們:

        import?string
        exclude?=?set(string.punctuation)

        def?remove_punctuation(x):
        ????x?=?''.join(ch?for?ch?in?x?if?ch?not?in?exclude)
        ????return?x
        #?原df
        Out[26]:?
        ??????a???????b
        0???c,d??edc.rc
        1?????3???????3
        2??d?ef???????4

        #?過濾a列標(biāo)點
        In?[27]:?df.a?=?df.a.apply(remove_punctuation)?
        In?[28]:?df????????????????
        Out[28]:?
        ??????a???????b
        0????cd??edc.rc
        1?????3???????3
        2??d?ef???????4

        技能8:cut 數(shù)據(jù)分箱

        將百分制分?jǐn)?shù)轉(zhuǎn)為A,B,C,D四個等級,bins 被分為 [0,60,75,90,100],labels 等于['D', 'C', 'B', 'A']:

        #?生成20個[0,100]的隨機(jī)整數(shù)
        In?[30]:?a?=?np.random.randint(1,100,20)???????????????????
        In?[31]:?a????????????????????????????????????
        Out[31]:?
        array([48,?22,?46,?84,?13,?52,?36,?35,?27,?99,?31,?37,?15,?31,??5,?46,?98,99,?60,?43])

        #?cut分箱
        In?[33]:?pd.cut(a,?[0,60,75,90,100],?labels?=?['D',?'C',?'B',?'A'])?????????????
        Out[33]:?
        [D,?D,?D,?B,?D,?...,?D,?A,?A,?D,?D]
        Length:?20
        Categories?(4,?object):?[D?

        技能9:rank 排名

        rank 方法,生成數(shù)值排名,ascending 為False,分值越大,排名越靠前:

        In?[36]:?df?=?pd.DataFrame({'a':[46,?98,99,?60,?43]}?))?
        In?[53]:?df['a'].rank(ascending=False)???????????????????
        Out[53]:?
        0????4.0
        1????2.0
        2????1.0
        3????3.0
        4????5.0

        技能10:category列轉(zhuǎn)數(shù)值

        某列取值只可能為有限個枚舉值,往往需要轉(zhuǎn)為數(shù)值,使用get_dummies,或自己定義函數(shù):

        pd.get_dummies(df['a'])

        自定義函數(shù),結(jié)合 apply:

        def?c2n(x):
        ????if?x=='A':
        ????????return?95
        ????if?x=='B':
        ????????return?80

        df['a'].apply(c2n)

        以上結(jié)合數(shù)據(jù)預(yù)處理的十個小任務(wù),分別找到對應(yīng)pandas中的實現(xiàn)。

        更多相關(guān)知識推薦《pandas數(shù)據(jù)分析》一書的相關(guān)章節(jié),需要的微信我,備注:分析

        不必打賞
        給我點個贊
        就心滿意足了

        長按下方二維碼加入 zhenguo 星球,獲取刷題筆記、打卡、優(yōu)質(zhì)學(xué)習(xí)資源等。

        瀏覽 78
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            午夜爱爱爱爱爱爽爽爽爽爽? | 精品视频69视频 | 插骚逼网| 日韓大美女操逼逼 | 三级三级18女男 | 亚洲视频在线免费看 | 少女たちよ观看动漫的最新进展 | 九一精品在线看 | 大香蕉在线视频网 | 在线欧美|