1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        數(shù)據(jù)分析、數(shù)據(jù)挖掘基礎(chǔ):描述統(tǒng)計學(xué)基礎(chǔ)知識分享!

        共 2923字,需瀏覽 6分鐘

         ·

        2020-10-09 19:16


        Mr-chen?| 作者
        博客園?|?來源
        https://www.cnblogs.com/chentianwei/p/12488891.html



        描述統(tǒng)計學(xué)數(shù)據(jù)挖掘的基礎(chǔ)。



        1


        分位數(shù)


        分位數(shù)(英語:Quantile),亦稱分位點,是指用分割點(cut point)將一個隨機變量的概率分布范圍分為幾個具有相同概率的連續(xù)區(qū)間。


        分割點的數(shù)量比劃分出的區(qū)間少1。


        例如:3個分割點能分出4個區(qū)間。


        常用的有中位數(shù)(二分位數(shù))、四分位數(shù)(quartile)、十分位數(shù)(decile)、百分位數(shù)等。


        q-quantile是指將有限值集分為q個接近相同尺寸的子集。


        分位數(shù)指的就是連續(xù)分布函數(shù)中的一個點,這個點對應(yīng)概率p。


        四分位數(shù)(英語:Quartile)是統(tǒng)計學(xué)中分位數(shù)的一種,即把所有數(shù)值由小到大排列,然后按照總數(shù)量分成四等份,即每份中的數(shù)值的數(shù)量相同,處于三個分割點位置的數(shù)值就是四分位數(shù)。


        這3個數(shù)叫做:


        • 第一四分位數(shù):又稱較小四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。

        • 第二四分位數(shù):又稱中位數(shù),等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。

        • 第三四分位數(shù):又稱較大四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。


        pandas.DataFrame.quantile()和numpy.percentile()計算結(jié)果一樣。


        pandas中有describe方法顯示四分位數(shù)。


        例子:


        >>> ps = pd.DataFrame([1,2,3,4,5,6,7,8,9,10,11,12])
        >>> ps.describe()
        ???????????????0
        count 12.000000
        mean 6.500000
        std 3.605551
        min 1.000000
        25%?????3.750000 #分割點
        50%?????6.500000
        75%?????9.250000
        max 12.000000


        >>> ps.quantile(0.25)
        0 3.75
        ?
        >>> ps.quantile(0.5)
        0 6.5


        >>> np.percentile(ps, 50)
        6.5


        分析方法中的二八法則,結(jié)合分位數(shù)來使用。


        2


        標(biāo)準(zhǔn)差&方差

        描述數(shù)據(jù)離散程度。數(shù)據(jù)的波動性。


        • 方差:統(tǒng)計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)。

        • 標(biāo)準(zhǔn)差:對方差開跟號。因為方差會消除數(shù)據(jù)的單位。元,缺少了業(yè)務(wù)的含義,所以引入標(biāo)準(zhǔn)差。)


        例子:

        a=[10,10,10,11,12,12,12]

        b=[3,5,7,11,15,17,19]

        a和b的中位數(shù)和平均數(shù)都11,但他們的方差不一樣,a的方差

        a數(shù)據(jù)集的離散程度小于b數(shù)據(jù)集。

        均值+/-標(biāo)準(zhǔn)差,這個范圍的數(shù)據(jù)占了整個數(shù)據(jù)集的大部分,可以說數(shù)值大部分在這個范圍內(nèi)波動。

        闡述:數(shù)據(jù)集的平均值是m, 大部分在m+/-方差的范圍內(nèi)波動。


        例子:


        #還是上面的數(shù)據(jù)
        >>> ps.std()
        0 3.605551


        3


        權(quán)重統(tǒng)計:數(shù)據(jù)標(biāo)準(zhǔn)化之Z-Score標(biāo)準(zhǔn)化


        Z-Score標(biāo)準(zhǔn)化是標(biāo)準(zhǔn)化的一種??梢园l(fā)現(xiàn)數(shù)據(jù)中的趨勢。


        (樣本i-均值)/標(biāo)準(zhǔn)差=數(shù)據(jù)標(biāo)準(zhǔn)化


        它們可以通過現(xiàn)有樣本進(jìn)行估計。在已有樣本足夠多的情況下比較穩(wěn)定,適合現(xiàn)代嘈雜大數(shù)據(jù)場景。


        #附加,mac-numbers使用公式的方法:
        1.單元格按=號,右側(cè)彈出函數(shù)列,選擇函數(shù),然后選擇需要計算的單元格。
        2.完成計算后,這個公式可以復(fù)制ctr+c, 然后選擇整列,再ctr+v,應(yīng)用到整列
        - 或者點擊單元格,方框正下方有個小黃點,可以下拉。


        4


        切比雪夫定理


        19世紀(jì)俄國數(shù)學(xué)家切比雪夫研究統(tǒng)計規(guī)律中,論證并用標(biāo)準(zhǔn)差表達(dá)了一個不等式,這個不等式具有普遍的意義,被稱作切比雪夫定理,大意是:


        任意一個數(shù)據(jù)集中,位于其平均數(shù)m個標(biāo)準(zhǔn)差范圍內(nèi)的比例(或部分)總是至少為1-1/m2,其中m為大于1的任意正數(shù)。


        對于m=2,m=3和m=5有如下結(jié)果:


        • 所有數(shù)據(jù)中,至少有3/4(或75%)的數(shù)據(jù)位于平均數(shù)2個標(biāo)準(zhǔn)差范圍內(nèi)。

        • 所有數(shù)據(jù)中,至少有8/9(或88.9%)的數(shù)據(jù)位于平均數(shù)3個標(biāo)準(zhǔn)差范圍內(nèi)。

        • 所有數(shù)據(jù)中,至少有24/25(或96%)的數(shù)據(jù)位于平均數(shù)5個標(biāo)準(zhǔn)差范圍內(nèi)?。?


        隨機數(shù)據(jù)集合,只有知道平均數(shù)和標(biāo)準(zhǔn)差,就知道這個數(shù)據(jù)集合的大概分布。


        例子:某大學(xué)100個學(xué)生平均成績70分,標(biāo)準(zhǔn)差5分,問有多少學(xué)生的成績在60·80分?

        答:

        60-70=-10

        80-70= 10

        60/80位于2個標(biāo)準(zhǔn)差。

        1-1/22 =3/4=75%。

        所以60~80分的學(xué)生至少占75%?

        5


        描述統(tǒng)計的可視化


        1.box箱線圖


        4分位數(shù)來表示數(shù)據(jù)的范圍分布。


        • 箱體表示占一半數(shù)量的數(shù)值

        • 下四分位數(shù)到下邊界,表示1/4數(shù)量的數(shù)值 (較小數(shù))

        • 上四分位數(shù)到上邊界,表示1/4數(shù)量的數(shù)據(jù) (較大數(shù))




        注意:?上面50%的價格分布在較小的區(qū)域


        2.直方圖 histogram?


        x軸的數(shù)據(jù),每個范圍/值都是唯一的。


        在統(tǒng)計學(xué)中,直方圖是一種對數(shù)據(jù)分布情況的圖形表示,是一種二維統(tǒng)計圖表,它的兩個坐標(biāo)分別是統(tǒng)計樣本該樣本對應(yīng)的某個屬性的度量,以長條圖的形式具體表現(xiàn)。


        因為直方圖的長度及寬度很適合用來表現(xiàn)數(shù)量上的變化,所以較容易解讀差異小的數(shù)值。



        總共有數(shù)據(jù)1000個,使用參數(shù)bins=50, x軸的數(shù)據(jù)被等分成50份。?





        6


        概率


        1.交集和并集



        解釋:A并B,有一部分是重合的,重合部分就是交集。計算A并B時,多了一塊交集,所以需要減去多出的一塊交集。



        解釋:用公式和符號表示: 在B已經(jīng)發(fā)生的情況下,A發(fā)生的概率。圓A和B相交的面積/圓B的面積=在B已經(jīng)發(fā)生的情況下,A發(fā)生的概率。


        7


        貝葉斯定理?


        例1:如果某種疾病的發(fā)病率為千分之一?,F(xiàn)在有一種試紙,它在患者得病的情況下,有99%的準(zhǔn)確率判斷患者得病,在患者沒有得病的情況下,有5%的可能誤判患者得病。現(xiàn)在試紙說一個患者得了病,那么患者真的得病的概率是多少?


        可以用分析圖來分析:



        所以用試紙查出患者占總樣本人數(shù)的比例為:(4995+99)/100000=5.094 %


        但實際上這部分查出有病的人中(5094人),有4995人是誤診的。所以查出的這部分人中只有1.943%是真生病的人。


        先驗概率(歷史經(jīng)驗):

        • P(A1)表示生病人群的概率:0.1%

        • P(A2)表示健康人群的概率:99.9%


        新信息:

        • 事件B表示用試紙檢測,并判斷生病。

        • P(B|A1):是真實患者的條件下,試紙查出來是患者的概率:99%

        • P(B|A2):? 是健康人群條件下,? ?試紙誤判是患者的概率:5%


        應(yīng)用貝葉斯定理:



        求得后驗概率:

        P(A1|B) 即用試紙檢查出是患者的條件下,是真實患者的概率。1.943%


        例2:一輛出租車在夜晚肇事之后逃逸,一位目擊證人辨認(rèn)出肇事車輛是藍(lán)色的。已知這座城市 85% 的出租車是綠色的,15% 是藍(lán)色的。警察經(jīng)過測試,認(rèn)為目擊者在當(dāng)時可以正確辨認(rèn)出這兩種顏色的概率是 80%, 辨別錯誤的概率是 20%. 請問,肇事出租車是藍(lán)色的概率是多少?


        注意,如果腦子亂,沒有思路:

        • 紙上畫圖(xmind思維導(dǎo)圖)

        • 假設(shè)一個真實的樣本數(shù)據(jù)。



        -?END -

        本文為轉(zhuǎn)載分享&推薦閱讀,若侵權(quán)請聯(lián)系后臺刪除

        瀏覽 104
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            美女被狂揉下部羞羞视频 | 鸡巴操美女欧美91 | www.99re热 | 天天综合影院 | 成**人毛片www免费版在线 | 亚洲三级久久 | 天天日B网 | 在线视频中文字幕亚洲 | 国产91无码精品秘 入口网站 | 中国男女全黄大片 |