『統(tǒng)計(jì)學(xué) 之 數(shù)據(jù)分析』常用方法盤點(diǎn)(二)

阿平 | 作者
知乎 |?來源
1
相關(guān)分析
研究現(xiàn)象之間是否存在某種依存關(guān)系,對具體有依存關(guān)系的現(xiàn)象探討相關(guān)方向及相關(guān)程度。
單相關(guān):兩個(gè)因素之間的相關(guān)關(guān)系叫單相關(guān),即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量
復(fù)相關(guān)?:三個(gè)或三個(gè)以上因素的相關(guān)關(guān)系叫復(fù)相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)以上的自變量和因變量相關(guān)
偏相關(guān):在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,當(dāng)假定其他變量不變時(shí),其中兩個(gè)變量之間的相關(guān)關(guān)系稱為偏相關(guān)
2
主成分分析
主成分分析(Principal Component Analysis,PCA), 是一種統(tǒng)計(jì)方法。通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。
主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機(jī)變量引入的,爾后H.霍特林將此方法推廣到隨機(jī)向量的情形。信息的大小通常用離差平方和或方差來衡量。
1. 原理
在用統(tǒng)計(jì)分析方法研究多變量的課題時(shí),變量個(gè)數(shù)太多就會增加課題的復(fù)雜性。人們自然希望變量個(gè)數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當(dāng)兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊。
主成分分析是對于原先提出的所有變量,將重復(fù)的變量(關(guān)系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。
設(shè)法將原來變量重新組合成一組新的互相無關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上用來降維的一種方法。
2. 缺點(diǎn)
在主成分分析中,我們首先應(yīng)保證所提取的前幾個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的水平(即變量降維后的信息量須保持在一個(gè)較高水平上),其次對這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋(否則主成分將空有信息量而無實(shí)際含義)。
主成分的解釋其含義一般多少帶有點(diǎn)模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價(jià)。因此,提取的主成分個(gè)數(shù)m通常應(yīng)明顯小于原始變量個(gè)數(shù)p(除非p本身較?。?,否則維數(shù)降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。
3
因子分析
一種旨在尋找隱藏在多變量數(shù)據(jù)中、無法直接觀察到卻影響或支配可測變量的潛在因子、并估計(jì)潛在因子對可測變量的影響程度以及潛在因子之間的相關(guān)性的一種多元統(tǒng)計(jì)分析方法。
1. 與主成分分析比較
相同:都能夠起到治理多個(gè)原始變量內(nèi)在結(jié)構(gòu)關(guān)系的作用
不同:主成分分析重在綜合原始變適的信息;而因子分析重在解釋原始變量間的關(guān)系,是比主成分分析更深入的一種多元統(tǒng)計(jì)方法
2. 用途
減少分析變量個(gè)數(shù)
通過對變量間相關(guān)關(guān)系探測,將原始變量進(jìn)行分類
4
信度分析
信度(Reliability)即可靠性,它是指采用同樣的方法對同一對象重復(fù)測量時(shí)所得結(jié)果的一致性程度。信度指標(biāo)多以相關(guān)系數(shù)表示,大致可分為三類:穩(wěn)定系數(shù)(跨時(shí)間的一致性),等值系數(shù)(跨形式的一致性)和內(nèi)在一致性系數(shù)(跨項(xiàng)目的一致性)。信度分析的方法主要有以下四種:重測信度法、復(fù)本信度法、折半信度法、α信度系數(shù)法。
1. 方法
?重測信度法編輯?
這一方法是用同樣的問卷對同一組被調(diào)查者間隔一定時(shí)間重復(fù)施測,計(jì)算兩次施測結(jié)果的相關(guān)系數(shù)。顯然,重測信度屬于穩(wěn)定系數(shù)。
重測信度法特別適用于事實(shí)式問卷,如性別、出生年月等在兩次施測中不應(yīng)有任何差異,大多數(shù)被調(diào)查者的興趣、愛好、習(xí)慣等在短時(shí)間內(nèi)也不會有十分明顯的變化。如果沒有突發(fā)事件導(dǎo)致被調(diào)查者的態(tài)度、意見突變,這種方法也適用于態(tài)度、意見式問卷。
由于重測信度法需要對同一樣本試測兩次,被調(diào)查者容易受到各種事件、活動和他人的影響,而且間隔時(shí)間長短也有一定限制,因此在實(shí)施中有一定困難。
?復(fù)本信度法編輯?
讓同一組被調(diào)查者一次填答兩份問卷復(fù)本,計(jì)算兩個(gè)復(fù)本的相關(guān)系數(shù)。復(fù)本信度屬于等值系數(shù)。
復(fù)本信度法要求兩個(gè)復(fù)本除表述方式不同外,在內(nèi)容、格式、難度和對應(yīng)題項(xiàng)的提問方向等方面要完全一致,而在實(shí)際調(diào)查中,很難使調(diào)查問卷達(dá)到這種要求,因此采用這種方法者較少。
?折半信度法編輯?
折半信度法是將調(diào)查項(xiàng)目分為兩半,計(jì)算兩半得分的相關(guān)系數(shù),進(jìn)而估計(jì)整個(gè)量表的信度。折半信度屬于內(nèi)在一致性系數(shù),測量的是兩半題項(xiàng)得分間的一致性。
這種方法一般不適用于事實(shí)式問卷(如年齡與性別無法相比),常用于態(tài)度、意見式問卷的信度分析。
在問卷調(diào)查中,態(tài)度測量最常見的形式是5級李克特(Likert)量表(李克特量表(Likert scale)是屬評分加總式量表最常用的一種,屬同一構(gòu)念的這些項(xiàng)目是用加總方式來計(jì)分,單獨(dú)或個(gè)別項(xiàng)目是無意義的。它是由美國社會心理學(xué)家李克特于1932年在原有的總加量表基礎(chǔ)上改進(jìn)而成的。該量表由一組陳述組成,每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答,分別記為5、4、3、2、1,每個(gè)被調(diào)查者的態(tài)度總分就是他對各道題的回答所得分?jǐn)?shù)的加總,這一總分可說明他的態(tài)度強(qiáng)弱或他在這一量表上的不同狀態(tài)。)。
進(jìn)行折半信度分析時(shí),如果量表中含有反意題項(xiàng),應(yīng)先將反意題項(xiàng)的得分作逆向處理,以保證各題項(xiàng)得分方向的一致性,然后將全部題項(xiàng)按奇偶或前后分為盡可能相等的兩半,計(jì)算二者的相關(guān)系數(shù)(rhh,即半個(gè)量表的信度系數(shù)),最后用斯皮爾曼-布朗(Spearman-Brown)公式:求出整個(gè)量表的信度系數(shù)(ru)
?α信度系數(shù)法?
α信度系數(shù)是目前最常用的信度系數(shù),其公式為:α=(k/(k-1))*(1-(∑Si^2)/ST^2)
其中,K為量表中題項(xiàng)的總數(shù), Si^2為第i題得分的題內(nèi)方差, ST^2為全部題項(xiàng)總得分的方差。從公式中可以看出,α系數(shù)評價(jià)的是量表中各題項(xiàng)得分間的一致性,屬于內(nèi)在一致性系數(shù)。這種方法適用于態(tài)度、意見式問卷(量表)的信度分析。
總量表的信度系數(shù)最好在0.8以上,0.7-0.8之間可以接受;分量表的信度系數(shù)最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha系數(shù)如果在0.6以下就要考慮重新編問卷。用于檢査測量的可信度,例如調(diào)查問卷的真實(shí)性。
2. 分類
外在信度:不同時(shí)間測量時(shí)量表的一致性程度,常用方法重測信度
內(nèi)在信度:每個(gè)量表是否測量到單一的概念,同時(shí)組成兩表的內(nèi)在體項(xiàng)一致性如何,常用方法分半信度
5
列聯(lián)表分析
列聯(lián)表是觀測數(shù)據(jù)按兩個(gè)或更多屬性(定性變量)分類時(shí)所列出的頻數(shù)表。
1. 簡介
若總體中的個(gè)體可按兩個(gè)屬性A、B分類,A有r個(gè)等級A1,A2,…,Ar,B有c個(gè)等級B1,B2,…,Bc,從總體中抽取大小為n的樣本,設(shè)其中有nij個(gè)個(gè)體的屬性屬于等級Ai和Bj,nij稱為頻數(shù),將r×c個(gè)nij排列為一個(gè)r行c列的二維列聯(lián)表,簡稱r×c表。若所考慮的屬性多于兩個(gè),也可按類似的方式作出列聯(lián)表,稱為多維列聯(lián)表。
列聯(lián)表又稱交互分類表,所謂交互分類,是指同時(shí)依據(jù)兩個(gè)變量的值,將所研究的個(gè)案分類。交互分類的目的是將兩變量分組,然后比較各組的分布狀況,以尋找變量間的關(guān)系。用于分析離散變量或定型變量之間是否存在相關(guān)。
列聯(lián)表分析的基本問題是,判明所考察的各屬性之間有無關(guān)聯(lián),即是否獨(dú)立。
如在前例中,問題是:一個(gè)人是否色盲與其性別是否有關(guān)?在r×с表中,若以pi、pj和pij分別表示總體中的個(gè)體屬于等級Ai,屬于等級Bj和同時(shí)屬于Ai、Bj的概率(pi,pj稱邊緣概率,pij稱格概率),“A、B兩屬性無關(guān)聯(lián)”的假設(shè)可以表述為H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知參數(shù)pij、pi、pj的最大似然估計(jì)(見點(diǎn)估計(jì))分別為行和及列和(統(tǒng)稱邊緣和)為樣本大小。根據(jù)K.皮爾森(1904)的擬合優(yōu)度檢驗(yàn)或似然比檢驗(yàn)(見假設(shè)檢驗(yàn)),當(dāng)h0成立,且一切pi>0和pj>0時(shí),統(tǒng)計(jì)量的漸近分布是自由度為(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n稱為期望頻數(shù)。當(dāng)n足夠大,且表中各格的Eij都不太小時(shí),可以據(jù)此對h0作檢驗(yàn):若Ⅹ值足夠大,就拒絕假設(shè)h0,即認(rèn)為A與B有關(guān)聯(lián)。在前面的色覺問題中,曾按此檢驗(yàn),判定出性別與色覺之間存在某種關(guān)聯(lián)。
2. 需要注意
若樣本大小n不很大,則上述基于漸近分布的方法就不適用。對此,在四格表情形,R.A.費(fèi)希爾(1935)提出了一種適用于所有n的精確檢驗(yàn)法。其思想是在固定各邊緣和的條件下,根據(jù)超幾何分布(見概率分布),可以計(jì)算觀測頻數(shù)出現(xiàn)任意一種特定排列的條件概率。把實(shí)際出現(xiàn)的觀測頻數(shù)排列,以及比它呈現(xiàn)更多關(guān)聯(lián)跡象的所有可能排列的條件概率都算出來并相加,若所得結(jié)果小于給定的顯著性水平,則判定所考慮的兩個(gè)屬性存在關(guān)聯(lián),從而拒絕h0。
對于二維表,可進(jìn)行卡方檢驗(yàn);對于三維表,可作Mentel-Hanszel分層分析。
列聯(lián)表分析還包括配對計(jì)數(shù)資料的卡方檢驗(yàn)、行列均為順序變量的相關(guān)檢驗(yàn)。
-?END -
本文為轉(zhuǎn)載分享&推薦閱讀,若侵權(quán)請聯(lián)系后臺刪除
