『統(tǒng)計學(xué) 之 數(shù)據(jù)分析』常用方法盤點(一)

阿平 | 作者
知乎 |?來源
1
聚類分析
聚類與分類的不同在于,聚類所要求劃分的類是未知的。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類。聚類分析所使用方法的不同,常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。
從實際應(yīng)用的角度看,聚類分析是數(shù)據(jù)挖掘的主要任務(wù)之一。而且聚類能夠作為一個獨立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇數(shù)據(jù)的特征,集中對特定的聚簇集合作進(jìn)一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預(yù)處理步驟。
1. 定義
依據(jù)研究對象(樣品或指標(biāo))的特征,對其進(jìn)行分類的方法,減少研究對象的數(shù)目。
各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質(zhì)相近事物歸入一類。各指標(biāo)之間具有一定的相關(guān)關(guān)系。
變量類型:定類變量、定量(離散和連續(xù))變量
樣本個體或指標(biāo)變量按其具有的特性進(jìn)行分類,尋找合理的度量事物相似性的統(tǒng)計量。
2. 性質(zhì)分類
Q型聚類分析:對樣本進(jìn)行分類處理,又稱樣本聚類分析使用距離系數(shù)作為統(tǒng)計量衡量相似度,如歐式距離、極端距離、絕對距離等。
R型聚類分析:對指標(biāo)進(jìn)行分類處理,又稱指標(biāo)聚類分析使用相似系數(shù)作為統(tǒng)計量衡量相似度,相關(guān)系數(shù)、列聯(lián)系數(shù)等。
3. 方法分類
系統(tǒng)聚類法:適用于小樣本的樣本聚類或指標(biāo)聚類,一般用系統(tǒng)聚類法來聚類指標(biāo),又稱分層聚類
逐步聚類法:適用于大樣本的樣本聚類
其他聚類法:兩步聚類、K均值聚類等
2
回歸分析
1. 一元線性回歸分析
只有一個自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個自變量與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布
?變呈篩選方式?
選擇最優(yōu)回歸方程的變呈篩選法包括全橫型法(CP法)、逐步回歸法、向前引入法和向后剔除法。
?橫型診斷方法?
殘差檢驗:觀測值與估計值的差值要艱從正態(tài)分布
強(qiáng)影響點判斷:尋找方式一般分為標(biāo)準(zhǔn)誤差法、Mahalanobis距離法
共線性診斷:
a. 診斷方式:容忍度、方差擴(kuò)大因子法(又稱膨脹系數(shù)VIF)、特征根判定法、條件指針CI、方差比例
b. 處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等
3. Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變里,且自變量和因變量呈線性關(guān)系,而Logistic回歸模型對因變量的分布沒有要求,一般用于因變量是離散時的情況
分類:Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區(qū)別在于參數(shù)的估計是否用到了條件概率
4. 其他回歸方法
非線性回歸、有序回歸、Probit回歸、加權(quán)回歸等
3
方差分析
使用條件:各樣本須是相互獨立的隨機(jī)樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
分類:
單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應(yīng)變量的關(guān)系
多因素有交互方差分析:一項實驗有多個影響因素,分析多個影響因素與響應(yīng)變量的關(guān)系,同時考慮多個影響因素之間的關(guān)系
多因素?zé)o交互方差分析:分析多個影響因素與響應(yīng)變量的關(guān)系,但是影響因素之間沒有影響關(guān)系或忽略影響關(guān)系
協(xié)方差分析:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機(jī)因素,使之影響了分析結(jié)果的準(zhǔn)確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應(yīng)進(jìn)行方差分析,是將線性回歸與方差分析結(jié)合起來的一種分析方法
4
假設(shè)檢驗
1. 參數(shù)檢驗
參數(shù)檢驗是在已知總體分布的條件下(一般要求總體服從正態(tài)分布)對一些主要的參數(shù)(如均值、百分?jǐn)?shù)、方差、相關(guān)系數(shù)等)進(jìn)行的檢驗。
?U驗?
使用條件:當(dāng)樣本含量n較大時,樣本值符合正態(tài)分布
?T檢驗?
使用條件:當(dāng)樣本含量n較小時,樣本值符合正態(tài)分布
單樣本t檢驗:推斷該樣本來自的總體均數(shù)μ與已知的某一總體均數(shù)μ0 (常為理論值或標(biāo)準(zhǔn)值)有無差別
配對樣本t檢驗:當(dāng)總體均數(shù)未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面極為相似
兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用
2. 非參數(shù)檢驗
非參數(shù)檢驗則不考慮總體分布是否已知,常常也不是針對總體參數(shù),而是針對總體的某些一股性假設(shè)(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗。
適用情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的。
雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài)
體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
5
描述統(tǒng)計
描述統(tǒng)計是通過圖表或數(shù)學(xué)方法,對數(shù)據(jù)資料進(jìn)行整理、分析,并對數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機(jī)變量之間關(guān)系進(jìn)行估計和描述的方法。描述統(tǒng)計分為集中趨勢分析、離中趨勢分析和相關(guān)分析三大部分。
1. 集中趨勢分析
集中趨勢分析主要靠平均數(shù)、中數(shù)、眾數(shù)等統(tǒng)計指標(biāo)來表示數(shù)據(jù)的集中趨勢。
例如被試的平均成績多少?是正偏分布還是負(fù)偏分布?
2. 離中趨勢分析
離中趨勢分析主要靠全距、四分差、平均差、方差(協(xié)方差:用來度量兩個隨機(jī)變量關(guān)系的統(tǒng)計量)、標(biāo)準(zhǔn)差等統(tǒng)計指標(biāo)來研究數(shù)據(jù)的離中趨勢。
例如,我們想知道兩個教學(xué)班的語文成績中,哪個班級內(nèi)的成績分布更分散,就可以用兩個班級的四分差或百分點來比較。
3. 相關(guān)分析
相關(guān)分析探討數(shù)據(jù)之間是否具有統(tǒng)計學(xué)上的關(guān)聯(lián)性。
這種關(guān)系既包括兩個數(shù)據(jù)之間的單一相關(guān)關(guān)系——如年齡與個人領(lǐng)域空間之間的關(guān)系,也包括多個數(shù)據(jù)之間的多重相關(guān)關(guān)系——如年齡、抑郁癥發(fā)生率、個人領(lǐng)域空間之間的關(guān)系;既包括A大B就大(小),A小B就小(大)的直線相關(guān)關(guān)系,也可以是復(fù)雜相關(guān)關(guān)系(A=Y-B*X);既可以是A、B變量同時增大這種正相關(guān)關(guān)系,也可以是A變量增大時B變量減小這種負(fù)相關(guān),還包括兩變量共同變化的緊密程度——即相關(guān)系數(shù)。
實際上,相關(guān)關(guān)系唯一不研究的數(shù)據(jù)關(guān)系,就是數(shù)據(jù)協(xié)同變化的內(nèi)在根據(jù)——即因果關(guān)系。獲得相關(guān)系數(shù)有什么用呢?簡而言之,有了相關(guān)系數(shù),就可以根據(jù)回歸方程,進(jìn)行A變量到B變量的估算,這就是所謂的回歸分析,因此,相關(guān)分析是一種完整的統(tǒng)計研究方法,它貫穿于提出假設(shè),數(shù)據(jù)研究,數(shù)據(jù)分析,數(shù)據(jù)研究的始終。
例如,我們想知道對監(jiān)獄情景進(jìn)行什么改造,可以降低囚徒的暴力傾向。我們就需要將不同的囚舍顏色基調(diào)、囚舍綠化程度、囚室人口密度、放風(fēng)時間、探視時間進(jìn)行排列組合,然后讓每個囚室一種實驗處理,然后用因素分析法找出與囚徒暴力傾向的相關(guān)系數(shù)最高的因素。假定這一因素為囚室人口密度,我們又要將被試隨機(jī)分入不同人口密度的十幾個囚室中生活,繼而得到人口密度和暴力傾向兩組變量(即我們討論過的A、B兩列變量)。然后,我們將人口密度排入X軸,將暴力傾向分排入Y軸,獲得了一個很有價值的圖表,當(dāng)某典獄長想知道,某囚舍擴(kuò)建到N人/間囚室,暴力傾向能降低多少。我們可以當(dāng)前人口密度和改建后人口密度帶入相應(yīng)的回歸方程,算出擴(kuò)建前的預(yù)期暴力傾向和擴(kuò)建后的預(yù)期暴力傾向,兩數(shù)據(jù)之差即典獄長想知道的結(jié)果。
4. 推論統(tǒng)計
推論統(tǒng)計是統(tǒng)計學(xué)乃至于心理統(tǒng)計學(xué)中較為年輕的一部分內(nèi)容。它以統(tǒng)計結(jié)果為依據(jù),來證明或推翻某個命題。具體來說,就是通過分析樣本與樣本分布的差異,來估算樣本與總體、同一樣本的前后測成績差異,樣本與樣本的成績差距、總體與總體的成績差距是否具有顯著性差異。
例如,我們想研究教育背景是否會影響人的智力測驗成績??梢哉?00名24歲大學(xué)畢業(yè)生和100名24歲初中畢業(yè)生。采集他們的一些智力測驗成績。用推論統(tǒng)計方法進(jìn)行數(shù)據(jù)處理,最后會得出類似這樣兒的結(jié)論:“研究發(fā)現(xiàn),大學(xué)畢業(yè)生組的成績顯著高于初中畢業(yè)生組的成績,二者在0.01水平上具有顯著性差異,說明大學(xué)畢業(yè)生的一些智力測驗成績優(yōu)于中學(xué)畢業(yè)生組?!?/span>
5. 正態(tài)性檢驗
很多統(tǒng)計方法都要求數(shù)值服從或近似服從正態(tài)分布,所以之前需要進(jìn)行正態(tài)性檢驗。
常用方法:非參數(shù)檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
-?END -
本文為轉(zhuǎn)載分享&推薦閱讀,若侵權(quán)請聯(lián)系后臺刪除
