『統(tǒng)計學 之 數(shù)據(jù)分析』常用方法盤點(三)

阿平 | 作者
知乎 |?來源
『統(tǒng)計學 之 數(shù)據(jù)分析』常用方法盤點(一)
『統(tǒng)計學 之 數(shù)據(jù)分析』常用方法盤點(二)
1
判別分析
1. 定義
根據(jù)已掌握的一批分類明確的樣品建立判別函數(shù),使產(chǎn)生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體。
2. 與聚類分析區(qū)別
聚類分析的知識我們在第一部分已經(jīng)提到了→『統(tǒng)計學 x 數(shù)據(jù)分析』常用方法盤點 Part.1
聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本。
聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類。
聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數(shù),然后才能對樣本進行分類。
3. 進行分類
?Fisher判別分析法?
以距離為判別準則來分類,即樣本與哪個類的距離最短就分到哪一類,適用于兩類判別
以概率為判別準則來分類,即樣本屬于哪一類的概率最大就分到哪一類,適用于多類判別
?BAYES判別分析法?
BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數(shù)據(jù)的分布狀態(tài),所以一般較多使用。
2
時間序列分析
動態(tài)數(shù)據(jù)處理的統(tǒng)計方法,研究隨機數(shù)據(jù)序列所遵從的統(tǒng)計規(guī)律,以用于解決實際問題;時間序列通常由4種要素組成:趨勢、季節(jié)變動、循環(huán)波動和不規(guī)則波動。
主要方法:移動平均濾波與指數(shù)平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型
時間序列是指同一變量按事件發(fā)生的先后順序排列起來的一組觀察值或記錄值。構成時間序列的要素有兩個:
時間
與時間相對應的變量水平
實際數(shù)據(jù)的時間序列能夠展示研究對象在一定時期內(nèi)的發(fā)展變化趨勢與規(guī)律,因而可以從時間序列中找出變量變化的特征、趨勢以及發(fā)展規(guī)律,從而對變量的未來變化進行有效地預測。
時間序列的變動形態(tài)一般分為四種:長期趨勢變動,季節(jié)變動,循環(huán)變動,不規(guī)則變動。
1. 時間序列預測法的應用
系統(tǒng)描述:根據(jù)對系統(tǒng)進行觀測得到的時間序列數(shù)據(jù),用曲線擬合方法對系統(tǒng)進行客觀的描述
系統(tǒng)分析:當觀測值取自兩個以上變量時,可用一個時間序列中的變化去說明另一個時間序列中的變化,從而深入了解給定時間序列產(chǎn)生的機理
預測未來:一般用ARMA模型擬合時間序列,預測該時間序列未來值
決策和控制:根據(jù)時間序列模型可調(diào)整輸入變量使系統(tǒng)發(fā)展過程保持在目標值上,即預測到過程要偏離目標時便可進行必要的控制
2. 特點
假定事物的過去趨勢會延伸到未來
預測所依據(jù)的數(shù)據(jù)具有不規(guī)則性
撇開了市場發(fā)展之間的因果關系
(1)時間序列分析預測法是根據(jù)市場過去的變化趨勢預測未來的發(fā)展,它的前提是假定事物的過去會同樣延續(xù)到未來。
(2)時間序列分析預測法突出了時間因素在預測中的作用,暫不考慮外界具體因素的影響。

3
生存分析
用來研究生存時間的分布規(guī)律以及生存時間和相關因索之間關系的一種統(tǒng)計分析方法
1. 包含內(nèi)容
描述生存過程,即研究生存時間的分布規(guī)律
比較生存過程,即研究兩組或多組生存時間的分布規(guī)律,并進行比較
分析危險因素,即研究危險因素對生存過程的影響
建立數(shù)學模型,即將生存時間與相關危險因素的依存關系用一個數(shù)學式子表示出來
2. 方法
?統(tǒng)計描述?
包括求生存時間的分位數(shù)、中數(shù)生存期、平均數(shù)、生存函數(shù)的估計、判斷生存時間的圖示法,不對所分析的數(shù)據(jù)作出任何統(tǒng)計推斷結論
?非參數(shù)檢驗?
檢驗分組變量各水平所對應的生存曲線是否一致,對生存時間的分布沒有要求,并且檢驗危險因素對生存時間的影響。
乘積極限法(PL法)
壽命表法(LT法)
?半?yún)?shù)橫型回歸分析?
在特定的假設之下,建立生存時間隨多個危險因素變化的回歸方程,這種方法的代表是Cox比例風險回歸分析法
?參數(shù)模型回歸分析?
已知生存時間服從特定的參數(shù)橫型時,擬合相應的參數(shù)模型,更準確地分析確定變量之間的變化規(guī)律
4
典型相關分析
相關分析一般分析兩個變量之間的關系,而典型相關分析是分析兩組變量(如3個學術能力指標與5個在校成績表現(xiàn)指標)之間相關性的一種統(tǒng)計分析方法。
典型相關分析的基本思想和主成分分析的基本思想相似,(主成分分析知識→『統(tǒng)計學』最常用的數(shù)據(jù)分析方法都在這了!Part.2)它將一組變量與另一組變量之間單變量的多重線性相關性研究轉化為對少數(shù)幾對綜合變量之間的簡單線性相關性的研究,并且這少數(shù)幾對變量所包含的線性相關性的信息幾乎覆蓋了原變量組所包含的全部相應信息。

5
R0C分析
R0C曲線是根據(jù)一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪制的曲線。
用途:
R0C曲線能很容易地査出任意界限值時的對疾病的識別能力
選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗的準確性就越高
兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線下面積反映診斷系統(tǒng)的準確性
6
其他分析方法
多重響應分析、距離分析、項目分析、對應分析、決策樹分析、神經(jīng)網(wǎng)絡、系統(tǒng)方程、蒙特卡洛模擬等。
決策樹分析與隨機森林:盡管有剪枝等等方法,一棵樹的生成肯定還是不如多棵樹,因此就有了隨機森林,解決決策樹泛化能力弱的缺點。(可以理解成三個臭皮匠頂過諸葛亮)
決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎上,通過構成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。
由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。
在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學理論中熵的概念。
分類樹(決策樹)是一種十分常用的分類方法。他是一種監(jiān)管學習,所謂監(jiān)管學習就是給定一堆樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那么通過學習得到一個分類器,這個分類器能夠對新出現(xiàn)的對象給出正確的分類。這樣的機器學習就被稱之為監(jiān)督學習。

?優(yōu)點?
決策樹易于理解和實現(xiàn),人們在在學習過程中不需要使用者了解很多的背景知識,這同時是它的能夠直接體現(xiàn)數(shù)據(jù)的特點,只要通過解釋后都有能力去理解決策樹所表達的意義。
對于決策樹,數(shù)據(jù)的準備往往是簡單或者是不必要的,而且能夠同時處理數(shù)據(jù)型和常規(guī)型屬性,在相對短的時間內(nèi)能夠對大型數(shù)據(jù)源做出可行且效果良好的結果。易于通過靜態(tài)測試來對模型進行評測,可以測定模型可信度;如果給定一個觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應的邏輯表達式。
?缺點?
對連續(xù)性的字段比較難預測
對有時間順序的數(shù)據(jù),需要很多預處理的工作
當類別太多時,錯誤可能就會增加的比較快
一般的算法分類的時候,只是根據(jù)一個字段來分析
