1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        數(shù)據(jù)分布和各種檢驗(yàn)

        共 1724字,需瀏覽 4分鐘

         ·

        2021-12-19 00:11

        看數(shù)據(jù)分布,一看直方圖,一看各種統(tǒng)計(jì)指標(biāo)。具體看哪個(gè)指標(biāo),依然是老話:看場(chǎng)景。

        統(tǒng)計(jì)指標(biāo)有哪些:

        【變異程度】:衡量數(shù)據(jù)的離散程度
        1、極差:最大值-最小值
        僅使用兩個(gè)觀測(cè)值度量變異程度,極其容易受到異常值的影響,一般不使用

        2、四分位數(shù)間距IQR:IQR= Q3 - Q1 是中間50%數(shù)的極差

        3、方差:使用所有數(shù)據(jù)對(duì)變異程度的一種度量
        ??

        協(xié)方差是衡量?jī)蓚€(gè)指標(biāo)變化方向的一致性

        4、標(biāo)準(zhǔn)差:方差的平方根,和原始單位一致,衡量平均距離平均值的距離。如果有異常數(shù)值的話,會(huì)增大標(biāo)準(zhǔn)差

        5、標(biāo)準(zhǔn)差系數(shù):標(biāo)準(zhǔn)差/平均數(shù)
        可以用來比較不同單位不同量級(jí)的變量變異程度

        【數(shù)據(jù)分布】偏度、峰度
        • 左偏的話偏度<0,右偏的話偏度>0

        • 正態(tài)分布的峰度是3,所以一般峰度-3。越尖越大



        【z分?jǐn)?shù)】對(duì)相對(duì)位置的度量??
        ??????????????????????????????

        【異常值檢測(cè)】異常大或者異常小的數(shù)據(jù),我們稱之為異常值
        • 正確的異常值

        • 錯(cuò)誤的異常值

        可以使用標(biāo)準(zhǔn)化數(shù)值z(mì)來,或者使用分位數(shù)來判斷異常值?

        【分位數(shù)】箱線圖? 常用來分組對(duì)比數(shù)據(jù)分布情況
        • 下限:Q1 - 1.5IQR

        • 上限:Q3 + 1.5IQR

        • 中位數(shù):Q2

        • 異常值:上下限之外的數(shù)值


        【抽樣】從總體中抽取有限樣本對(duì)總體進(jìn)行估計(jì)
        由于是從總體中進(jìn)行隨機(jī)抽樣,所以如果進(jìn)行多次重復(fù)抽樣,那么得到的樣本肯定有所不同,但是他們中間又有重疊和關(guān)聯(lián)

        每一次隨機(jī)抽樣,都能夠得到一個(gè)?,所以它本身也就是一個(gè)變量,也就有所謂的均值、標(biāo)準(zhǔn)差、方差

        【中心極限定理】從總體中抽取n個(gè)隨機(jī)樣本,當(dāng)樣本容量很大的時(shí)候,樣本均值??的抽樣分布服從正態(tài)分布
        一般來說n=30的時(shí)候,分布就較能夠符合正態(tài)分布了

        ??的標(biāo)準(zhǔn)差,我們一般稱之為標(biāo)準(zhǔn)誤差,樣本數(shù)量越大,相對(duì)的誤差也就越小

        因?yàn)槲覀儾荒苤竿S機(jī)抽出來的樣本均值就是總體均值,我們給到的是一個(gè)概率和范圍,也稱之為區(qū)間估計(jì)

        中心極限定理是置信區(qū)間/置信度的核心,深刻理解抽樣分布和中心極限定理是后續(xù)的基石

        【置信區(qū)間:點(diǎn)估計(jì) +/-?邊際誤差】在預(yù)測(cè)以及AB中應(yīng)用廣泛
        • 誤差和置信水平有關(guān),置信水平越高(99%),則區(qū)間越大;

        • 誤差和樣本方差有關(guān),樣本方差越大,區(qū)間越大

        • 誤差和樣本數(shù)量有關(guān),樣本數(shù)量越小,區(qū)間越大


        【假設(shè)檢驗(yàn)】運(yùn)用在AB測(cè)試,模型的顯著性檢驗(yàn),相關(guān)系數(shù)的顯著性檢驗(yàn)等領(lǐng)域
        • 【第一類錯(cuò)誤】如果原假設(shè)為真,而被我們拒絕了(新功能并沒有比原功能更好,卻被我們誤以為新功能更好)的錯(cuò)誤,叫做第一類錯(cuò)誤。犯第一類錯(cuò)誤的概率叫做顯著性水平,一般我們會(huì)取0.05,0.1。

        • 【第二類錯(cuò)誤】如果備則假設(shè)為假,而被我們拒絕了(新功能比原功能更好,卻沒有被發(fā)現(xiàn))的錯(cuò)誤,叫做第二類錯(cuò)誤。犯第二種錯(cuò)誤的概率一般取0.2,反過來一般我們稱之為統(tǒng)計(jì)功效 power = 1-??


        為了保證第一類錯(cuò)誤和第二類錯(cuò)誤控制在一定的水平,需要保證樣本量大于某個(gè)閾值,AB測(cè)試樣本量計(jì)算的原理

        【獨(dú)立兩樣本t檢驗(yàn)】?jī)蓚€(gè)獨(dú)立隨機(jī)抽取的樣本分布的均值/比例區(qū)別
        兩個(gè)獨(dú)立隨機(jī)樣本的均值差距越遠(yuǎn),越有可能不同,兩個(gè)樣本的方差越小,越有可能不同
        ??


        【卡方檢驗(yàn)】用于多分類變量的比例檢驗(yàn),計(jì)算期望和實(shí)際的距離
        有個(gè)非常通俗易懂的文章可以看看:
        https://zhuanlan.zhihu.com/p/69888032


        【方差分析】用來衡量多組樣本是否均值相等

        F =?組間(處理)方差/組內(nèi)方差(誤差) = SSTR/SSE

        線性回歸整體的顯著性用的也是F檢驗(yàn),F(xiàn)=被解釋的方差/殘差?

        以上回顧的內(nèi)容,都是非常基礎(chǔ)的內(nèi)容,但是在面試過程中發(fā)現(xiàn),真的能掌握的人比例還不多,并且還都是名校畢業(yè)的孩子。越是基礎(chǔ)越是重要,更具有普適性。
        ·················END·················

        推薦閱讀

        1. 我在字節(jié)做了哪些事

        2. 寫給所有數(shù)據(jù)人。

        3. 從留存率業(yè)務(wù)案例談0-1的數(shù)據(jù)指標(biāo)體系

        4. 數(shù)據(jù)分析師的一周

        5. 超級(jí)菜鳥如何入門數(shù)據(jù)分析?


        歡迎長(zhǎng)按掃碼關(guān)注「數(shù)據(jù)管道」

        瀏覽 114
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            国产叼嘿片 | 丁香五月综合啪啪啪 | 久久五月丁香婷 | 韩国伦理一区二区 | 嫩草精品福利视频在线观看 | 91久久人澡人妻人人澡人人爽 | 欧美内射网 | 裸身不知火舞被羞羞漫画 | 一级少妇高清性色生活片 | 最新黄色在线观看 |