1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        值得收藏!這是 Python 數(shù)據(jù)預處理最頻繁使用的5個技巧!

        共 1899字,需瀏覽 4分鐘

         ·

        2022-02-28 05:26

        ↑?關注 + 星標?,每天學Python新技能

        后臺回復【大禮包】送你Python自學大禮包




        我們知道數(shù)據(jù)是一項寶貴的資產(chǎn),近年來經(jīng)歷了指數(shù)級增長。但是原始數(shù)據(jù)通常不能立即使用,它需要進行大量清理和轉(zhuǎn)換。

        Pandas 是 Python 的數(shù)據(jù)分析和操作庫,它有多種清理數(shù)據(jù)的方法和函數(shù)。在本文中,我將做5個示例來幫助大家掌握數(shù)據(jù)清理技能。

        數(shù)據(jù)集

        這是一個包含臟數(shù)據(jù)的示例數(shù)據(jù)框讓我們看看可以做些什么來使這個數(shù)據(jù)集變得干凈。

        • 第一列是多余的,應該刪除;
        • Date 沒有標準;
        • Name 寫成姓氏、名字,并有大寫和小寫字母;
        • Payment 代表一個數(shù)量,但它們顯示為字符串,需要處理;
        • 在 Note 中,有一些非字母數(shù)字應該被刪除;

        示例 1

        刪除列是使用 drop 函數(shù)的簡單操作。除了寫列名外,我們還需要指定軸參數(shù)的值,因為 drop 函數(shù)用于刪除行和列。最后,我們可以使用 inplace 參數(shù)來保存更改。

        import?pandas?as?pd
        df.drop("Unnamed:?0",?axis=1,?inplace=True)

        示例 2

        我們有多種選擇將日期值轉(zhuǎn)換為適當?shù)母袷?。一種更簡單的方法是使用 astype 函數(shù)來更改列的數(shù)據(jù)類型。它能夠處理范圍廣泛的值并將它們轉(zhuǎn)換為整潔、標準的日期格式。

        df["Date"]?=?df["Date"].astype("datetime64[ns]")

        示例 3

        關于名稱列,我們首先需要解決如下問題:

        • 首先我們應該用所有大寫或小寫字母來表示它們。另一種選擇是將它們大寫(即只有首字母是大寫的);
        • 切換姓氏和名字的順序;
        df["Name"].str.split(",",?expand=True)

        然后,我將取第二列與第一列結(jié)合起來,中間有一個空格。最后一步是使用 lower 函數(shù)將字母轉(zhuǎn)換為小寫。

        df["Name"]?=?(df["Name"].str.split(",",?expand=True)[1]?+?"?"?+?df["Name"].str.split(",",?expand=True)[0]).str.lower()

        示例 4

        支付Payment的數(shù)據(jù)類型是不能用于數(shù)值分析的。在將其轉(zhuǎn)換為數(shù)字數(shù)據(jù)類型(即整數(shù)或浮點數(shù))之前,我們需要刪除美元符號并將第一行中的逗號替換為點。

        我們可以使用 Pandas 在一行代碼中完成所有這些操作

        df["Payment"]?=?df["Payment"].str[1:].str.replace(",",?".").astype("float")

        示例 5

        Note 列中的一些字符也需要刪除。在處理大型數(shù)據(jù)集時,可能很難手動替換它們。

        我們可以做的是刪除非字母數(shù)字字符(例如?、!、-、. 等)。在這種情況下也可以使用 replace 函數(shù),因為它接受正則表達式。

        如果我們只想要字母字符,下面是我們?nèi)绾问褂锰鎿Q函數(shù):

        df["Note"].str.replace('[^a-zA-Z]',?'')
        0??????Unhappy
        1????Satisfied
        2??????Neutral
        3??????Unhappy
        4??????Neutral
        Name:?Note,?dtype:?object

        如果我們想要字母和數(shù)字(即字母數(shù)字),我們需要在我們的正則表達式中添加數(shù)字:

        df["Note"].str.replace('[^a-zA-Z0-9]',?'')
        0??????Unhappy
        1????Satisfied
        2??????Neutral
        3??????Unhappy
        4??????Neutral0
        Name:?Note,?dtype:?object

        請注意,這次沒有刪除最后一行中的 0,我只需選擇第一個選項。如果我還想在刪除非字母數(shù)字字符后將字母轉(zhuǎn)換為小寫

        df["Note"]?=?df["Note"].str.replace('[^a-zA-Z]',?'').str.lower()

        與初始形式相比,數(shù)據(jù)集看起來要好得多。當然,它是一個簡單的數(shù)據(jù)集,但這些清理操作在處理大型數(shù)據(jù)集時肯定會對你有所幫助。


        推薦閱讀

        1. 爬取網(wǎng)站內(nèi)容,合并Excel數(shù)據(jù)…推薦一個自動化辦公神器!

        2. 分享一個我最近用的國產(chǎn)神器, ApiPost!

        3. 來了,最強 Python 學習資料(全彩打印)


        您看此文用???分??秒,轉(zhuǎn)發(fā)只需1秒哦~

        瀏覽 29
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            很污很黄能把下面看湿 | 齐天大性床战铁扇公主 | 亚洲欧洲精品一区二区三区 | jizz久久精品永久免费 | 皇后羞辱打开双腿调教h视频 | 强奸久久久久久久 | jizz日本丝袜18老师免费 | 黄片免费在线播放 | 99热这里只有精品三区在线播放 | 日韩一区二区在线播放 |