1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        利用SQL對(duì)數(shù)據(jù)進(jìn)行清洗處理

        共 1515字,需瀏覽 4分鐘

         ·

        2021-05-19 18:13

        獲取數(shù)據(jù)后,對(duì)數(shù)據(jù)的清洗工作必不可少,常用的數(shù)據(jù)清洗方法主要有缺失值填充、數(shù)值替換、數(shù)據(jù)類(lèi)型轉(zhuǎn)換、數(shù)據(jù)分列、重復(fù)值處理等,清洗的數(shù)據(jù)結(jié)果直接影響最后數(shù)據(jù)分析的結(jié)果,一個(gè)成熟的數(shù)據(jù)分析師,在日常工作中絕大多數(shù)時(shí)間都在數(shù)據(jù)清洗,下面一起學(xué)習(xí)。


        缺失值填充

        缺失值處理,可以使用均值、線性插值等方法進(jìn)行填充,這里使用均值來(lái)作為填充值填充,首先計(jì)算分?jǐn)?shù)的平均值,然后篩選分?jǐn)?shù)為空的行,使用UPDATE函數(shù)將空值填充為平均值。

        #計(jì)算score列的均值SELECT AVG(score) AS avg_score FROM score;
        #使用均值填充空值UPDATE score SET score=74 WHERE score is null;select * from score;

        清理空格

        清理字符中的空格,使用的是TRIM函數(shù),并且用UPDATE函數(shù)更新表格。

        #清理字符中的空格UPDATE course SET Cname=TRIM(Cname);select * from course;

        數(shù)值替換

        REPLACE函數(shù)可以對(duì)字符進(jìn)行替換,類(lèi)似于EXCEL的替換功能。

        #修改和替換UPDATE courseSET Cname=REPLACE(Cname,'語(yǔ)文','語(yǔ)文-A');select * from course;

        大小寫(xiě)轉(zhuǎn)換

        小寫(xiě)轉(zhuǎn)換可以用LOWER函數(shù),大寫(xiě)轉(zhuǎn)換可以用UPER函數(shù),這里使用LOWER函數(shù)將大寫(xiě)A轉(zhuǎn)換為小寫(xiě)a。

        #大小寫(xiě)轉(zhuǎn)換UPDATE courseSET Cname=LOWER(Cname);select * from course;

        數(shù)據(jù)類(lèi)型轉(zhuǎn)換

        數(shù)據(jù)類(lèi)型轉(zhuǎn)換用CONVERT函數(shù),括號(hào)中第一個(gè)寫(xiě)要轉(zhuǎn)換類(lèi)型的值,第二個(gè)寫(xiě)要轉(zhuǎn)換成的數(shù)據(jù)類(lèi)型,此處將出生日期轉(zhuǎn)換為日期類(lèi)型。

        SELECT Sname,CONVERT(Sage,date) as '出生日期' FROM student;


        mySQL常用的數(shù)據(jù)類(lèi)型如下:

        數(shù)據(jù)分列

        數(shù)據(jù)分列與EXCEL的功能相似,這里使用到的函數(shù)是SUBSTRING_INDEX,這里將"語(yǔ)文-A",分列成科目 語(yǔ)文 與評(píng)級(jí)為 兩部分。

        #數(shù)據(jù)分列SELECTSUBSTRING_INDEX(cname,'-',1) AS '科目',SUBSTRING_INDEX(cname,'-',-1) AS '評(píng)級(jí)'FROM course;

        分列后的數(shù)據(jù)可以通過(guò)更新增加在原數(shù)據(jù)表中,下面是具體的代碼。

        #數(shù)據(jù)分列(改表),添加兩個(gè)空字段ALTER TABLE course  ADD (col1 VARCHAR(255),col2 VARCHAR(255));SELECT * FROM course;

        #更新分列后的字段內(nèi)容UPDATE course SET col1 = SUBSTRING_INDEX(cname,'-',1),col2 =SUBSTRING_INDEX(cname,'-',-1);SELECT * FROM course;

        重復(fù)值處理

        重復(fù)值的處理使用到DISTINCT函數(shù),也可以使用數(shù)據(jù)分組功能,實(shí)現(xiàn)將某個(gè)字段去除重復(fù)值的功能。

        #重復(fù)值SELECT DISTINCT CId,Cname FROM course;


        點(diǎn)分享
        點(diǎn)收藏
        點(diǎn)點(diǎn)贊
        點(diǎn)在看
        瀏覽 78
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            91撸视频 | 在线观看日韩 | 九九热综合网 | 国产精品99久久久久久久久久 | 十八禁日韩 | 免费avapp | 亚洲少妇精品 | 亚州无码人妻 | 免费成人在线网站 | 成人片免费无码 |