統(tǒng)計(jì)學(xué)知識(shí)闖關(guān)之十問(wèn)十答
↓↓↓點(diǎn)擊關(guān)注,回復(fù)資料,10個(gè)G的驚喜
??點(diǎn)擊關(guān)注|設(shè)為星標(biāo)|干貨速遞??
今天給大家?guī)?lái)10個(gè)統(tǒng)計(jì)學(xué)問(wèn)題,看看你能闖幾關(guān)?每個(gè)問(wèn)題都給出了參考答案,如果你有不同的看法,歡迎在評(píng)論區(qū)留言討論~
第 1 問(wèn)
自由度是什么?怎樣確定?
答:(定義)構(gòu)成樣本統(tǒng)計(jì)量的獨(dú)立的樣本觀測(cè)值的數(shù)目或自由變動(dòng)的樣本觀測(cè)值的數(shù)目。用df表示。
自由度的設(shè)定是出于這樣一個(gè)理由:在總體平均數(shù)未知時(shí),用樣本平均數(shù)去計(jì)算離差(常用小s)會(huì)受到一個(gè)限制——要計(jì)算標(biāo)準(zhǔn)差(小s)就必須先知道樣本平均數(shù),而樣本平均數(shù)和n都知道的情況下,數(shù)據(jù)的總和就是一個(gè)常數(shù)了。
所以,“最后一個(gè)”樣本數(shù)據(jù)就不可以變了,因?yàn)樗亲?,總和就變了,而這是不允許的
通俗點(diǎn)說(shuō),一個(gè)班上有50個(gè)人,我們知道他們語(yǔ)文成績(jī)平均分為80,現(xiàn)在只需要知道49個(gè)人的成績(jī)就能推斷出剩下那個(gè)人的成績(jī)。你可以隨便報(bào)出49個(gè)人的成績(jī),但是最后一個(gè)人的你不能瞎說(shuō),因?yàn)槠骄忠呀?jīng)固定下來(lái),自由度少一個(gè)。
第 2 問(wèn)
正態(tài)分布檢驗(yàn)中自由度問(wèn)題
答:在正態(tài)分布檢驗(yàn)中,這里的M(三個(gè)統(tǒng)計(jì)量)為:N(總數(shù))、平均數(shù)和標(biāo)準(zhǔn)差。
因?yàn)槲覀冊(cè)谧稣龖B(tài)檢驗(yàn)時(shí),要使用到平均數(shù)和標(biāo)準(zhǔn)差以確定該正態(tài)分布形態(tài),此外,要計(jì)算出各個(gè)區(qū)間的理論次數(shù),我們還需要使用到N。所以在正態(tài)分布檢驗(yàn)中,自由度為K-3
第 3 問(wèn)
t檢驗(yàn)
答:t檢驗(yàn)適用于兩個(gè)變量均數(shù)間的差異檢驗(yàn),多于兩個(gè)變量間的均數(shù)比較要用方差分析。
無(wú)論哪種類(lèi)型的t檢驗(yàn),都必須在滿足特定的前提條件下: 正態(tài)性和方差齊性,應(yīng)用才是合理的。這是因?yàn)楸仨氃谶@樣的前提下所計(jì)算出的t統(tǒng)計(jì)量才服從t分布,而t檢驗(yàn)正是以t分布作為其理論依據(jù)的檢驗(yàn)方法。
t檢驗(yàn)是目前醫(yī)學(xué)研究中使用頻率最高,醫(yī)學(xué)論文中最常見(jiàn)到的處理定量資料的假設(shè)檢驗(yàn)方法。
第 4 問(wèn)
統(tǒng)計(jì)學(xué)意義(P值)
答:結(jié)果的統(tǒng)計(jì)學(xué)意義是結(jié)果真實(shí)程度(能夠代表總體)的一種估計(jì)方法。專(zhuān)業(yè)上,P值為結(jié)果可信程度的一個(gè)遞減指標(biāo),P值越大,我們?cè)讲荒苷J(rèn)為樣本中變量的關(guān)聯(lián)是總體中各變量關(guān)聯(lián)的可靠指標(biāo)。
P值是將觀察結(jié)果認(rèn)為有效即具有總體代表性的犯錯(cuò)概率。如P=0.05提示樣本中變量關(guān)聯(lián)有5%的可能是由于偶然性造成的。即假設(shè)總體中任意變量間均無(wú)關(guān)聯(lián)
我們重復(fù)類(lèi)似實(shí)驗(yàn),會(huì)發(fā)現(xiàn)約20個(gè)實(shí)驗(yàn)中有一個(gè)實(shí)驗(yàn),我們所研究的變量關(guān)聯(lián)將等于或強(qiáng)于我們的實(shí)驗(yàn)結(jié)果。(這并不是說(shuō)如果變量間存在關(guān)聯(lián),我們可得到5%或95%次數(shù)的相同結(jié)果,當(dāng)總體中的變量存在關(guān)聯(lián),重復(fù)研究和發(fā)現(xiàn)關(guān)聯(lián)的可能性與設(shè)計(jì)的統(tǒng)計(jì)學(xué)效力有關(guān)。)
在許多研究領(lǐng)域,0.05的P值通常被認(rèn)為是可接受錯(cuò)誤的邊界水平。
第 5 問(wèn)
如何判定結(jié)果具有真實(shí)的顯著性
答:在最后結(jié)論中判斷什么樣的顯著性水平具有統(tǒng)計(jì)學(xué)意義,不可避免地帶有武斷性。換句話說(shuō),認(rèn)為結(jié)果無(wú)效而被拒絕接受的水平的選擇具有武斷性。
實(shí)踐中,最后的決定通常依賴(lài)于數(shù)據(jù)集比較和分析過(guò)程中結(jié)果是先驗(yàn)性還是僅僅為均數(shù)之間的兩兩比較,依賴(lài)于總體數(shù)據(jù)集里結(jié)論一致的支持性證據(jù)的數(shù)量,依賴(lài)于以往該研究領(lǐng)域的慣例。
通常,許多的科學(xué)領(lǐng)域中產(chǎn)生P值的結(jié)果≤0.05被認(rèn)為是統(tǒng)計(jì)學(xué)意義的邊界線,但是這顯著性水平還包含了相當(dāng)高的犯錯(cuò)可能性。結(jié)果 0.05≥P>0.01被認(rèn)為是具有統(tǒng)計(jì)學(xué)意義,而0.01≥P≥0.001被認(rèn)為具有高度統(tǒng)計(jì)學(xué)意義。但要注意這種分類(lèi)僅僅是研究基礎(chǔ)上非正規(guī)的判斷常規(guī)。
第 6 問(wèn)
所有的檢驗(yàn)統(tǒng)計(jì)都是正態(tài)分布的嗎?
答:并不完全如此,但大多數(shù)檢驗(yàn)都直接或間接與之有關(guān),可以從正態(tài)分布中推導(dǎo)出來(lái),如t檢驗(yàn)、F檢驗(yàn)或卡方檢驗(yàn)。這些檢驗(yàn)一般都要求:所分析變量在總體中呈正態(tài)分布,即滿足所謂的正態(tài)假設(shè)。許多觀察變量的確是呈正態(tài)分布的,這也是正態(tài)分布是現(xiàn)實(shí)世界的基本特征的原因。
隨著樣本量的增加,樣本分布形狀趨于正態(tài),即使所研究的變量分布并不呈正態(tài)。
第 7 問(wèn)
假設(shè)檢驗(yàn)的內(nèi)涵及步驟
答:在假設(shè)檢驗(yàn)中,由于隨機(jī)性我們可能在決策上犯兩類(lèi)錯(cuò)誤。
一類(lèi)是假設(shè)正確,但我們拒絕了假設(shè),這類(lèi)錯(cuò)誤是“棄真”錯(cuò)誤,被稱(chēng)為第一類(lèi)錯(cuò)誤;
一類(lèi)是假設(shè)不正確,但我們沒(méi)拒絕假設(shè),這類(lèi)錯(cuò)誤是“取偽”錯(cuò)誤,被稱(chēng)為第二類(lèi)錯(cuò)誤。
一般來(lái)說(shuō),在樣本確定的情況下,任何決策無(wú)法同時(shí)避免兩類(lèi)錯(cuò)誤的發(fā)生,即在避免第一類(lèi)錯(cuò)誤發(fā)生機(jī)率的同時(shí),會(huì)增大第二類(lèi)錯(cuò)誤發(fā)生的機(jī)率;或者在避免第二類(lèi)錯(cuò)誤發(fā)生機(jī)率的同時(shí),會(huì)增大第一類(lèi)錯(cuò)誤發(fā)生的機(jī)率。人們往往根據(jù)需要選擇對(duì)那類(lèi)錯(cuò)誤進(jìn)行控制,以減少發(fā)生這類(lèi)錯(cuò)誤的機(jī)率。大多數(shù)情況下,人們會(huì)控制第一類(lèi)錯(cuò)誤發(fā)生的概率。
發(fā)生第一類(lèi)錯(cuò)誤的概率被稱(chēng)作顯著性水平,一般用α表示,在進(jìn)行假設(shè)檢驗(yàn)時(shí),是通過(guò)事先給定顯著性水平α的值而來(lái)控制第一類(lèi)錯(cuò)誤發(fā)生的概率。
在這個(gè)前提下,假設(shè)檢驗(yàn)按下列步驟進(jìn)行:確定假設(shè)
進(jìn)行抽樣,得到一定的數(shù)據(jù)
根據(jù)假設(shè)條件下,構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,并根據(jù)抽樣得到的數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量在這次抽樣中的具體值
依據(jù)所構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量的抽樣分布,和給定的顯著性水平確定拒絕域及其臨界值
比較這次抽樣中檢驗(yàn)統(tǒng)計(jì)量的值與臨界值的大小,如果檢驗(yàn)統(tǒng)計(jì)量的值在拒絕域內(nèi),則拒絕假設(shè)
到這一步,假設(shè)檢驗(yàn)已經(jīng)基本完成,但是由于檢驗(yàn)是利用事先給定顯著性水平的方法來(lái)控制犯錯(cuò)概率的,所以對(duì)于兩個(gè)數(shù)據(jù)比較相近的假設(shè)檢驗(yàn),我們無(wú)法知道那一個(gè)假設(shè)更容易犯錯(cuò),即我們通過(guò)這種方法只能知道根據(jù)這次抽樣而犯第一類(lèi)錯(cuò)誤的最大概率(即給定的顯著性水平),而無(wú)法知道具體在多大概率水平上犯錯(cuò)。
計(jì)算 P值有效的解決了這個(gè)問(wèn)題,P值其實(shí)就是按照抽樣分布計(jì)算的一個(gè)概率值,這個(gè)值是根據(jù)檢驗(yàn)統(tǒng)計(jì)量計(jì)算出來(lái)的。通過(guò)直接比較P值與給定的顯著性水平α的大小就可以知道是否拒絕假設(shè),顯然這就代替了比較檢驗(yàn)統(tǒng)計(jì)量的值與臨界值的大小的方法。
而且通過(guò)這種方法,我們還可以知道在p值小于α的情況下犯第一類(lèi)錯(cuò)誤的實(shí)際概率是多少,p=0.03<α=0.05,那么拒絕假設(shè),這一決策可能犯錯(cuò)的概率是0.03。需要指出的是,如果P>α,那么假設(shè)不被拒絕,在這種情況下,第一類(lèi)錯(cuò)誤并不會(huì)發(fā)生。
第 8 問(wèn)
卡方檢驗(yàn)的結(jié)果,值是越大越好,還是越小越好?
答:與其它檢驗(yàn)一樣,所計(jì)算出的統(tǒng)計(jì)量越大,在分布中越接近分布的尾端,所對(duì)應(yīng)的概率值越小。如果試驗(yàn)設(shè)計(jì)合理、數(shù)據(jù)正確,顯著或不顯著都是客觀反映。沒(méi)有什么好與不好
第 9 問(wèn)
在比較兩組數(shù)據(jù)的率是否相同時(shí),二項(xiàng)分布和卡方檢驗(yàn)有什么不同?
答:卡方分布主要用于多組多類(lèi)的比較,是檢驗(yàn)研究對(duì)象總數(shù)與某一類(lèi)別組的觀察頻數(shù)和期望頻數(shù)之間是否存在顯著差異,要求每格中頻數(shù)不小于5,如果小于5則合并相鄰組。
二項(xiàng)分布則沒(méi)有這個(gè)要求。如果分類(lèi)中只有兩類(lèi)還是采用二項(xiàng)檢驗(yàn)為好。如果是2*2表格可以用fisher精確檢驗(yàn),在小樣本下效果更好。
第 10 問(wèn)
如何比較兩組數(shù)據(jù)之間的差異性
答:從三個(gè)方面來(lái)回答
① 設(shè)計(jì)類(lèi)型是完全隨機(jī)設(shè)計(jì)兩組數(shù)據(jù)比較,不知道數(shù)據(jù)是否是連續(xù)性變量?
② 比較方法:如果數(shù)據(jù)是連續(xù)性數(shù)據(jù),且兩組數(shù)據(jù)分別服從正態(tài)分布和方差齊性檢驗(yàn),則可以采用t檢驗(yàn),如果不服從以上條件可以采用其他檢驗(yàn)。
③ 想知道兩組數(shù)據(jù)是否有明顯差異?不知道這個(gè)明顯差異是什么意思?是問(wèn)差別有無(wú)統(tǒng)計(jì)學(xué)意義(即差別的概率有多大)還是兩總體均數(shù)差值在哪個(gè)范圍波動(dòng)?如果是前者則可以用第2步可以得到P值,如果是后者,則是用均數(shù)差值的置信區(qū)間來(lái)完成的。
作者:黎嫣? 整理自:https://www.cnblogs.com/Acceptyly/p/3930006.html
