『統(tǒng)計(jì)學(xué) x 數(shù)據(jù)分析』常用方法盤點(diǎn) Part.1
點(diǎn)擊上方“數(shù)據(jù)管道”,選擇“置頂星標(biāo)”公眾號(hào)
干貨福利,第一時(shí)間送達(dá)

阿平 | 作者
知乎 |?來源
1
聚類分析
聚類與分類的不同在于,聚類所要求劃分的類是未知的。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。聚類分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。
從實(shí)際應(yīng)用的角度看,聚類分析是數(shù)據(jù)挖掘的主要任務(wù)之一。而且聚類能夠作為一個(gè)獨(dú)立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇?cái)?shù)據(jù)的特征,集中對(duì)特定的聚簇集合作進(jìn)一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預(yù)處理步驟。
1. 定義
依據(jù)研究對(duì)象(樣品或指標(biāo))的特征,對(duì)其進(jìn)行分類的方法,減少研究對(duì)象的數(shù)目。
各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質(zhì)相近事物歸入一類。各指標(biāo)之間具有一定的相關(guān)關(guān)系。
變量類型:定類變量、定量(離散和連續(xù))變量
樣本個(gè)體或指標(biāo)變量按其具有的特性進(jìn)行分類,尋找合理的度量事物相似性的統(tǒng)計(jì)量。
2. 性質(zhì)分類
Q型聚類分析:對(duì)樣本進(jìn)行分類處理,又稱樣本聚類分析使用距離系數(shù)作為統(tǒng)計(jì)量衡量相似度,如歐式距離、極端距離、絕對(duì)距離等。
R型聚類分析:對(duì)指標(biāo)進(jìn)行分類處理,又稱指標(biāo)聚類分析使用相似系數(shù)作為統(tǒng)計(jì)量衡量相似度,相關(guān)系數(shù)、列聯(lián)系數(shù)等。
3. 方法分類
系統(tǒng)聚類法:適用于小樣本的樣本聚類或指標(biāo)聚類,一般用系統(tǒng)聚類法來聚類指標(biāo),又稱分層聚類
逐步聚類法:適用于大樣本的樣本聚類
其他聚類法:兩步聚類、K均值聚類等
2
回歸分析
1. 一元線性回歸分析
只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個(gè)自變量與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布
?變呈篩選方式?
選擇最優(yōu)回歸方程的變呈篩選法包括全橫型法(CP法)、逐步回歸法、向前引入法和向后剔除法。
?橫型診斷方法?
殘差檢驗(yàn):觀測(cè)值與估計(jì)值的差值要艱從正態(tài)分布
強(qiáng)影響點(diǎn)判斷:尋找方式一般分為標(biāo)準(zhǔn)誤差法、Mahalanobis距離法
共線性診斷:
a. 診斷方式:容忍度、方差擴(kuò)大因子法(又稱膨脹系數(shù)VIF)、特征根判定法、條件指針CI、方差比例
b. 處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等
3. Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變里,且自變量和因變量呈線性關(guān)系,而Logistic回歸模型對(duì)因變量的分布沒有要求,一般用于因變量是離散時(shí)的情況
分類:Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區(qū)別在于參數(shù)的估計(jì)是否用到了條件概率
4. 其他回歸方法
非線性回歸、有序回歸、Probit回歸、加權(quán)回歸等
3
方差分析
使用條件:各樣本須是相互獨(dú)立的隨機(jī)樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
分類:
單因素方差分析:一項(xiàng)試驗(yàn)只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應(yīng)變量的關(guān)系
多因素有交互方差分析:一項(xiàng)實(shí)驗(yàn)有多個(gè)影響因素,分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系
多因素?zé)o交互方差分析:分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,但是影響因素之間沒有影響關(guān)系或忽略影響關(guān)系
協(xié)方差分析:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機(jī)因素,使之影響了分析結(jié)果的準(zhǔn)確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對(duì)修正后的主效應(yīng)進(jìn)行方差分析,是將線性回歸與方差分析結(jié)合起來的一種分析方法
4
假設(shè)檢驗(yàn)
1. 參數(shù)檢驗(yàn)
參數(shù)檢驗(yàn)是在已知總體分布的條件下(一般要求總體服從正態(tài)分布)對(duì)一些主要的參數(shù)(如均值、百分?jǐn)?shù)、方差、相關(guān)系數(shù)等)進(jìn)行的檢驗(yàn)。
?U驗(yàn)?
使用條件:當(dāng)樣本含量n較大時(shí),樣本值符合正態(tài)分布
?T檢驗(yàn)?
使用條件:當(dāng)樣本含量n較小時(shí),樣本值符合正態(tài)分布
單樣本t檢驗(yàn):推斷該樣本來自的總體均數(shù)μ與已知的某一總體均數(shù)μ0 (常為理論值或標(biāo)準(zhǔn)值)有無差別
配對(duì)樣本t檢驗(yàn):當(dāng)總體均數(shù)未知時(shí),且兩個(gè)樣本可以配對(duì),同對(duì)中的兩者在可能會(huì)影響處理效果的各種條件方面極為相似
兩獨(dú)立樣本t檢驗(yàn):無法找到在各方面極為相似的兩樣本作配對(duì)比較時(shí)使用
2. 非參數(shù)檢驗(yàn)
非參數(shù)檢驗(yàn)則不考慮總體分布是否已知,常常也不是針對(duì)總體參數(shù),而是針對(duì)總體的某些一股性假設(shè)(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗(yàn)。
適用情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的。
雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài)
體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下
主要方法包括:卡方檢驗(yàn)、秩和檢驗(yàn)、二項(xiàng)檢驗(yàn)、游程檢驗(yàn)、K-量檢驗(yàn)等。
5
描述統(tǒng)計(jì)
描述統(tǒng)計(jì)是通過圖表或數(shù)學(xué)方法,對(duì)數(shù)據(jù)資料進(jìn)行整理、分析,并對(duì)數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機(jī)變量之間關(guān)系進(jìn)行估計(jì)和描述的方法。描述統(tǒng)計(jì)分為集中趨勢(shì)分析、離中趨勢(shì)分析和相關(guān)分析三大部分。
1. 集中趨勢(shì)分析
集中趨勢(shì)分析主要靠平均數(shù)、中數(shù)、眾數(shù)等統(tǒng)計(jì)指標(biāo)來表示數(shù)據(jù)的集中趨勢(shì)。
例如被試的平均成績(jī)多少?是正偏分布還是負(fù)偏分布?
2. 離中趨勢(shì)分析
離中趨勢(shì)分析主要靠全距、四分差、平均差、方差(協(xié)方差:用來度量?jī)蓚€(gè)隨機(jī)變量關(guān)系的統(tǒng)計(jì)量)、標(biāo)準(zhǔn)差等統(tǒng)計(jì)指標(biāo)來研究數(shù)據(jù)的離中趨勢(shì)。
例如,我們想知道兩個(gè)教學(xué)班的語文成績(jī)中,哪個(gè)班級(jí)內(nèi)的成績(jī)分布更分散,就可以用兩個(gè)班級(jí)的四分差或百分點(diǎn)來比較。
3. 相關(guān)分析
相關(guān)分析探討數(shù)據(jù)之間是否具有統(tǒng)計(jì)學(xué)上的關(guān)聯(lián)性。
這種關(guān)系既包括兩個(gè)數(shù)據(jù)之間的單一相關(guān)關(guān)系——如年齡與個(gè)人領(lǐng)域空間之間的關(guān)系,也包括多個(gè)數(shù)據(jù)之間的多重相關(guān)關(guān)系——如年齡、抑郁癥發(fā)生率、個(gè)人領(lǐng)域空間之間的關(guān)系;既包括A大B就大(小),A小B就小(大)的直線相關(guān)關(guān)系,也可以是復(fù)雜相關(guān)關(guān)系(A=Y-B*X);既可以是A、B變量同時(shí)增大這種正相關(guān)關(guān)系,也可以是A變量增大時(shí)B變量減小這種負(fù)相關(guān),還包括兩變量共同變化的緊密程度——即相關(guān)系數(shù)。
實(shí)際上,相關(guān)關(guān)系唯一不研究的數(shù)據(jù)關(guān)系,就是數(shù)據(jù)協(xié)同變化的內(nèi)在根據(jù)——即因果關(guān)系。獲得相關(guān)系數(shù)有什么用呢?簡(jiǎn)而言之,有了相關(guān)系數(shù),就可以根據(jù)回歸方程,進(jìn)行A變量到B變量的估算,這就是所謂的回歸分析,因此,相關(guān)分析是一種完整的統(tǒng)計(jì)研究方法,它貫穿于提出假設(shè),數(shù)據(jù)研究,數(shù)據(jù)分析,數(shù)據(jù)研究的始終。
例如,我們想知道對(duì)監(jiān)獄情景進(jìn)行什么改造,可以降低囚徒的暴力傾向。我們就需要將不同的囚舍顏色基調(diào)、囚舍綠化程度、囚室人口密度、放風(fēng)時(shí)間、探視時(shí)間進(jìn)行排列組合,然后讓每個(gè)囚室一種實(shí)驗(yàn)處理,然后用因素分析法找出與囚徒暴力傾向的相關(guān)系數(shù)最高的因素。假定這一因素為囚室人口密度,我們又要將被試隨機(jī)分入不同人口密度的十幾個(gè)囚室中生活,繼而得到人口密度和暴力傾向兩組變量(即我們討論過的A、B兩列變量)。然后,我們將人口密度排入X軸,將暴力傾向分排入Y軸,獲得了一個(gè)很有價(jià)值的圖表,當(dāng)某典獄長(zhǎng)想知道,某囚舍擴(kuò)建到N人/間囚室,暴力傾向能降低多少。我們可以當(dāng)前人口密度和改建后人口密度帶入相應(yīng)的回歸方程,算出擴(kuò)建前的預(yù)期暴力傾向和擴(kuò)建后的預(yù)期暴力傾向,兩數(shù)據(jù)之差即典獄長(zhǎng)想知道的結(jié)果。
4. 推論統(tǒng)計(jì)
推論統(tǒng)計(jì)是統(tǒng)計(jì)學(xué)乃至于心理統(tǒng)計(jì)學(xué)中較為年輕的一部分內(nèi)容。它以統(tǒng)計(jì)結(jié)果為依據(jù),來證明或推翻某個(gè)命題。具體來說,就是通過分析樣本與樣本分布的差異,來估算樣本與總體、同一樣本的前后測(cè)成績(jī)差異,樣本與樣本的成績(jī)差距、總體與總體的成績(jī)差距是否具有顯著性差異。
例如,我們想研究教育背景是否會(huì)影響人的智力測(cè)驗(yàn)成績(jī)。可以找100名24歲大學(xué)畢業(yè)生和100名24歲初中畢業(yè)生。采集他們的一些智力測(cè)驗(yàn)成績(jī)。用推論統(tǒng)計(jì)方法進(jìn)行數(shù)據(jù)處理,最后會(huì)得出類似這樣兒的結(jié)論:“研究發(fā)現(xiàn),大學(xué)畢業(yè)生組的成績(jī)顯著高于初中畢業(yè)生組的成績(jī),二者在0.01水平上具有顯著性差異,說明大學(xué)畢業(yè)生的一些智力測(cè)驗(yàn)成績(jī)優(yōu)于中學(xué)畢業(yè)生組?!?/span>
5. 正態(tài)性檢驗(yàn)
很多統(tǒng)計(jì)方法都要求數(shù)值服從或近似服從正態(tài)分布,所以之前需要進(jìn)行正態(tài)性檢驗(yàn)。
常用方法:非參數(shù)檢驗(yàn)的K-量檢驗(yàn)、P-P圖、Q-Q圖、W檢驗(yàn)、動(dòng)差法。
-?END -
本文為轉(zhuǎn)載分享&推薦閱讀,若侵權(quán)請(qǐng)聯(lián)系后臺(tái)刪除
