1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        【統(tǒng)計學】終于有人把p值講明白了

        共 5121字,需瀏覽 11分鐘

         ·

        2021-05-29 18:31


        導讀:p值(P value)就是當原假設為真時,比所得到的樣本觀察結果更極端的結果出現(xiàn)的概率,是用來判定假設檢驗結果的一個參數(shù)。p值是根據(jù)實際統(tǒng)計量計算出的顯著性水平。本文帶你了解p值和對p值的常見誤解。

        作者:羅恩·科哈維(Ron Kohavi)、黛安·唐(Diane Tang)、許亞(Ya Xu)

        來源:大數(shù)據(jù)DT(ID:hzdashuju)


        01 假設檢驗:確立統(tǒng)計顯著性


        在對照實驗中,實驗組有一組樣本,每個對照組各有一組樣本。如果零假設是來自實驗組的樣本和來自對照組的均值相同,我們會定量測試兩組樣本的差異的可能性大小。


        如果可能性非常小,則我們拒絕零假設,并宣稱差異是統(tǒng)計顯著的。確切地說,有了實驗組樣本和對照組樣本的人均營收的估計值,我們可以計算估計值的差異的p值,即在零假設為真的情況下觀測到這種差值或更極端的差值的概率。


        如果p值足夠小,則我們拒絕零假設,并得出實驗有效應(或者說結果統(tǒng)計上顯著)的結論。但是多小是足夠小呢? 


        科學的標準是使用小于0.05的p值,也就是說,如果事實上是沒有效應的,那么100次里我們有95次能正確地推斷出沒有效應。另一種檢驗樣本差異是否統(tǒng)計顯著的方法是看置信區(qū)間有沒有包含零值。95%置信區(qū)間是一個可以在95%的時間里覆蓋真實差異值的區(qū)間。


        對于較大的樣本量,這個區(qū)間通常以觀測到的實驗組和對照組差值為中心點,向兩邊各擴展1.96倍于標準差的寬度。圖2.3展示了p值和置信區(qū)間這兩種方法的等價性。 


        ▲圖2.3 上圖:用p值評定觀測到的差值是否統(tǒng)計顯著。如果p值小于0.05,則認為是統(tǒng)計顯著的。下圖:用95%置信區(qū)間Δ-1.96σ,Δ+1.96σ評定統(tǒng)計顯著性的等價方法。如果零值落在置信區(qū)間之外,則認為是統(tǒng)計顯著的


        統(tǒng)計功效(statistical power)是如果變體之間有真實差異,檢測出有意義的差值的概率(統(tǒng)計上指當真實有差異時拒絕零假設的概率)。


        從實踐的角度來說,你想要實驗有足夠大的功效,從而能夠以高概率得出實驗是否導致了比你所在意的變化更大的變化的結論。通常情況下,樣本量越大,統(tǒng)計功效就越大。實驗設計的慣常做法是選擇80%~90%的統(tǒng)計功效。


        雖然“統(tǒng)計顯著性”衡量了當零假設為真時,基于偶然性得到你的觀察值或更極端觀察值的可能性有多大,但不是所有統(tǒng)計顯著的結果都有實際意義。


        以人均營收為例,多大的差異從業(yè)務角度來說是緊要的?換句話說,什么樣的變化是實際顯著的(practically significant)?構建這一實質性的邊界很重要,它可以幫助理解一個差異是否值得花費相應改動所需的成本。


        如果你的網站像谷歌和必應那樣有數(shù)十億美金的營收,那么0.2%的變化是實際顯著的。作為對比,一個初創(chuàng)公司可能認為2%的增長都太小了,因為他們追求的是10%或更大的增長。對于我們的例子,從業(yè)務角度來看,人均營收提高1%及以上是重要的或者說是實際顯著的。 



        02 曲解統(tǒng)計結果


        我們現(xiàn)在來介紹一些解讀對照實驗的數(shù)據(jù)時常見的錯誤。


        1. 統(tǒng)計功效不足


        零假設顯著性檢驗(Null Hypothesis Significance Testing, NHST)框架通常假定對照組和實驗組之間的指標沒有差異(零假設),如果數(shù)據(jù)能提供有力的反對證據(jù),則拒絕該假設。


        一個常見的錯誤是,僅僅由于指標不是統(tǒng)計顯著的,就假設沒有實驗效應。而真實的情況很可能是因為實驗的統(tǒng)計功效不足以檢測到我們看到的效應量,也就是實驗沒有足夠的用戶。


        例如,對GoodUI.org的115個A/B測試進行的評估表明,大多數(shù)實驗的統(tǒng)計功效不足。這就是為什么說重要的是要定義多大的變化是實際顯著的,并確保有足夠的功效來檢測該大小或更小的變化。


        如果實驗僅影響總體的一小部分,那么僅分析受影響的子集就很重要。即使對一小部分用戶而言是巨大的影響,也可能在分析總體時被稀釋并且無法被檢測到。



        2. 曲解p值


        p值經常被曲解。最常見的錯誤解釋是基于單個實驗中的數(shù)據(jù),認為p值代表對照組和實驗組的指標平均值相同的概率。


        p值是當假定零假設為真時,得到的結果與觀測到的結果相同或更極端的概率。零假設的條件至關重要。


        以下是“A Dirty Dozen: Twelve P-Value Misconceptions”中的一些不正確的陳述和解釋:


        1)如果p值=0.05,則零假設只有5%的機會為真。


        p值是基于零假設為真的前提來計算的。


        2)不顯著的差異(例如,p值>0.05)意味著實驗組和對照組之間沒有差異。


        此時觀察到的結果與零假設的實驗效應為零相符,但同時也和其他數(shù)值的實驗效應相符。當展示一個典型的對照實驗的置信區(qū)間時,我們發(fā)現(xiàn)該區(qū)間包含零。但這并不意味著置信區(qū)間中的零比其他值更有可能出現(xiàn)。實驗很可能沒有足夠的統(tǒng)計功效。


        3)p值=0.05表示在零假設下,我們觀察到的數(shù)據(jù)僅有5%的時間出現(xiàn)。


        通過上面的p值的定義,我們知道這是不正確的。該p值(=0.05)包括了出現(xiàn)跟觀察到的值一樣以及更極端的情況。


        4)p值=0.05表示如果拒絕零假設,則假陽性的可能性僅為5%。


        這和第一個例子很像,但是更不容易看到其錯誤性。下面這個例子可能會有所幫助:假設你正在嘗試通過在鉛上施加熱和壓力并澆注藥劑來將鉛轉化為金。


        你測量所得混合物的“黃金”量,這是一個有很多干擾的測量。由于我們知道化學處理無法將鉛的原子序數(shù)從82變?yōu)?9,任何對零假設(也就是不變)的否定都是錯誤的,因此任何情況下拒絕零假設都是假陽性,而與p值無關。


        要計算假陽率,即在p值<0.05且零假設為真的情況(請注意,這兩個條件是同時發(fā)生的,而不是以零假設是真的為前提)下,我們可以使用貝葉斯定理并需要知道先驗概率。


        即使是前面常見的假定零假設為真的p值的定義,也沒有明確地闡述其他的假設,比如如何收集數(shù)據(jù)(例如隨機采樣)以及統(tǒng)計檢驗做出什么假設。如果進行了中間層次的分析而影響了選擇哪種分析來呈現(xiàn),或者由于p值較小而選擇呈現(xiàn)p值,那么顯然會違反這些假設。


        3. 窺探p值


        運行線上對照實驗時,你可以連續(xù)監(jiān)控p值。事實上,商業(yè)產品Optimizely的早期版本曾鼓勵這樣做。這樣的多重假設檢驗會導致宣稱的統(tǒng)計顯著的結果有重大的偏差(5到10倍)。這里有兩種選擇:


        1)按照Johari et al. (2017)的建議,使用始終有效的p值的序貫檢驗,或貝葉斯檢驗框架。

        2)使用預設的實驗時長(例如一周)來確定統(tǒng)計顯著性。


        Optimizely根據(jù)第一種方法實施了一個解決方案,而谷歌、領英和微軟的實驗平臺則選擇使用第二種方法。


        4. 多重假設檢驗


        以下故事來自有趣的書What is a p-value anyway?


        • 統(tǒng)計專家:噢,你已經計算好了p值?

        • 外科醫(yī)生:是的,我用了多類別邏輯回歸。

        • 統(tǒng)計專家:真的?你怎么想到的?

        • 外科醫(yī)生:我在統(tǒng)計軟件的下拉菜單中嘗試了每種分析,而該分析給出的p值最小。


        多重比較問題是上述窺探問題的一個概括。當存在多個假設檢驗且選擇了最低的p值時,我們對p值和效應大小的估算可能會出現(xiàn)偏差。這體現(xiàn)在以下幾個方面:


        1. 查看多個指標。

        2. 查看跨時間的p值(如上所述的窺探)。

        3. 查看受眾細分群(例如,國家/地區(qū),瀏覽器類型,重度/輕度使用,新/老用戶)。

        4. 查看實驗的多次迭代。例如,如果實驗確實沒有任何影響(A/A實驗),則運行20次可能會出現(xiàn)一個小于0.05的p值。


        錯誤發(fā)現(xiàn)率是處理多重檢驗的關鍵概念。




        03 置信區(qū)間


        寬泛地說,置信區(qū)間可以量化實驗效應的不確定程度。置信水平表示置信區(qū)間應包含真正的實驗效應的頻率。p值和置信區(qū)間之間存在對偶性。對于對照實驗中常用的零差異零假設,實驗效應的95%置信區(qū)間不包含零意味著p值<0.05。


        一個常見的錯誤是單獨查看對照組和實驗組的置信區(qū)間,并假設如果它們重疊,則實驗效應在統(tǒng)計學上沒有差異。這是不正確的,如Statistical Rules of Thumb中所示,它們的置信區(qū)間可以重疊多達29%,但差異是統(tǒng)計顯著的。然而,反過來卻是對的:如果95%的置信區(qū)間不重疊,則實驗效應是統(tǒng)計顯著的,此時的p值<0.05。


        關于置信區(qū)間的另一個常見曲解是認為所呈現(xiàn)的95%置信區(qū)間有95%的機會包含真正的實驗效應。對于特定的置信區(qū)間,真正的實驗效應要么100%在里面,要么0%在里面。95%是指由許多研究計算出的95%置信區(qū)間有多高頻率包含一次真正的實驗效應。


        關于作者:羅恩·科哈維(Ron Kohavi)是愛彼迎的副總裁和技術院士,曾任微軟的技術研究員和公司副總裁。在加入微軟之前,他是亞馬遜的數(shù)據(jù)挖掘和個性化推薦總監(jiān)。他擁有斯坦福大學計算機科學博士學位,論文被引用超過40 000次,其中有3篇位列計算機科學領域引用最多的1 000篇論文榜。
        黛安·唐(Diane Tang)是谷歌院士,大規(guī)模數(shù)據(jù)分析和基礎設施、線上對照實驗及廣告系統(tǒng)方面的專家。她擁有哈佛大學的文學學士學位和斯坦福大學的碩士及博士學位,在移動網絡、信息可視化、實驗方法、數(shù)據(jù)基礎設施、數(shù)據(jù)挖掘和大數(shù)據(jù)方面擁有專利和出版物。
        許亞(Ya Xu)是領英數(shù)據(jù)科學與實驗平臺負責人,曾撰寫了多篇關于實驗的論文,并經常在頂級會議和大學演講。她曾在微軟工作,擁有斯坦福大學的統(tǒng)計學博士學位。

        本文摘編自關鍵迭代:可信賴的線上對照實驗》,經出版方授權發(fā)布。

        延伸閱讀關鍵迭代:可信賴的線上對照實驗
        點擊上圖了解及購買
        轉載請聯(lián)系微信:DoctorData

        推薦語:愛彼迎、谷歌、領英A/B測試領軍人物撰寫,亞馬遜、谷歌、微軟和領英等公司互聯(lián)網產品成功的秘訣!谷歌院士JeffDean、臉書首任CTO、沈向洋等37位專家推薦。本書基于近些年實驗領域的研究成果和實踐經驗,對實驗的方法和應用做了很好的全景式描述,是一本兼顧系統(tǒng)性的方法論和基于實戰(zhàn)的經驗法則的書籍。



            
        也可以加一下老胡的微信
        圍觀朋友圈~~~


        推薦閱讀

        (點擊標題可跳轉閱讀)

        亞馬遜首席科學家李沐博士:工作五年反思

        2021年,機器學習研究風向要變了?

        【下載】80頁筆記看遍機器學習基本概念、算法、模型

        老鐵,三連支持一下,好嗎?↓↓↓

        瀏覽 84
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            97久久超碰国产精品2021 | 欧美老年妇啪啪啪视频免费看 | 国产又粗又长视频 | 成人日屄视频 | 亚洲丰满熟妇XXXX性A片下载 | www.青青草 | 三级电影在线看 | 一级做a爰片久久毛片A片下乡 | 嫩草一起草久久久久 | 国产午夜精品在线观看 |