機(jī)器學(xué)習(xí)中涉及的8項(xiàng)統(tǒng)計(jì)分析知識(shí)
統(tǒng)計(jì)學(xué)是研究如何搜集資料、整理資料和進(jìn)行量化分析、推斷的一門科學(xué),在科學(xué)計(jì)算、工業(yè)和金融等領(lǐng)域有著重要應(yīng)用,統(tǒng)計(jì)分析是機(jī)器學(xué)習(xí)的基本方法。例如,確定某種癌癥的誘發(fā)因素、垃圾郵件檢測(cè)、財(cái)務(wù)預(yù)測(cè)、遺傳學(xué)、市場(chǎng)分析、識(shí)別手寫數(shù)字等,都與統(tǒng)計(jì)分析有著緊密的聯(lián)系。與統(tǒng)計(jì)分析相關(guān)的基本概念有以下幾個(gè)。
(1)總體:根據(jù)一定目的確定的所要研究事物的全體。
(2)樣本:從總體中隨機(jī)抽取的若干個(gè)體構(gòu)成的集合。
(3)推斷:以樣本所包含的信息為基礎(chǔ),對(duì)總體的某些特征做出判斷、預(yù)測(cè)和估計(jì)。
(4)推斷可靠性:對(duì)推斷結(jié)果從概率上的確認(rèn),是決策的重要依據(jù)。
統(tǒng)計(jì)分析分為描述性統(tǒng)計(jì)和推斷性統(tǒng)計(jì),描述性統(tǒng)計(jì)是通過對(duì)樣本進(jìn)行整理、分析并就數(shù)據(jù)的分布情況獲取有意義的信息,從而得到結(jié)論。推斷統(tǒng)計(jì)又分為參數(shù)估計(jì)和假設(shè)檢驗(yàn),參數(shù)估計(jì)是對(duì)樣本整體中某個(gè)數(shù)值進(jìn)行估計(jì),如推斷總體平均值等,而假設(shè)檢驗(yàn)是通過對(duì)所做的推斷進(jìn)行驗(yàn)證,從而選擇行動(dòng)方案。
統(tǒng)計(jì)基礎(chǔ)
1. 輸入空間、特征空間和輸出空間
向量空間模型包括輸入空間、特征空間與輸出空間,輸入與輸出所有的可能取值的集合分別稱為輸入空間與輸出空間,每個(gè)具體的輸入是一個(gè)實(shí)例,通常由特征向量表示,所有特征向量存在的空間稱為特征空間。輸入變量一般x表示,輸出變量用y表示。
訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)由輸入輸出對(duì)組成,例如{(x1,y1),(x2,y2),…,(xn,yn)}。這些成對(duì)出現(xiàn)的數(shù)據(jù)稱為樣本,其中輸入和輸出變量類型可以是連續(xù)的,也可以是離散的,不同類型的樣本采用不同的求解方法。例如,如果x和y均為連續(xù)變量的預(yù)測(cè)問題,則可以用回歸方法來解決;如果y為離散變量的預(yù)測(cè)問題,則可以用分類算法處理。
2. 聯(lián)合概率分布
聯(lián)合概率表示兩個(gè)或多個(gè)變量同時(shí)發(fā)生的概率,而聯(lián)合概率分布是指各個(gè)變量的發(fā)生概率之間存在一定的規(guī)律,但是其分布情況未知。在監(jiān)督式學(xué)習(xí)中,樣本數(shù)據(jù)的訓(xùn)練可使各變量之間的聯(lián)合概率分布情況逐漸明確。聯(lián)合概率分布按變量的類型可分為離散隨機(jī)變量聯(lián)合分布和連續(xù)隨機(jī)變量聯(lián)合分布。
3. 假設(shè)空間
假設(shè)空間(Hypothesis Space)是由輸入空間到輸出空間的映射構(gòu)成的集合,而其中每個(gè)映射對(duì)應(yīng)一個(gè)模型,假設(shè)空間確定了模型預(yù)測(cè)的范圍,訓(xùn)練過程就是從中選擇最優(yōu)模型。監(jiān)督學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個(gè)由輸入到輸出的映射規(guī)律,其模型包括概率模型和非概率模型,前者由條件概率分布p(y|x)表示,后者由函數(shù)y=f(x)表示,模型確認(rèn)之后就可以對(duì)具體的輸入進(jìn)行相應(yīng)的輸出預(yù)測(cè)。
4. 均值、標(biāo)準(zhǔn)差、方差、協(xié)方差
首先給定一個(gè)含有n個(gè)樣本的集合X={x1,…,xn},其中均值和標(biāo)準(zhǔn)差的計(jì)算方法相對(duì)簡(jiǎn)單,其計(jì)算公式如下。其中[插圖]是樣本集合的均值,s是樣本集合的標(biāo)準(zhǔn)差。

均值描述的是樣本集合的平均值,而標(biāo)準(zhǔn)差描述的是樣本集合的各個(gè)樣本點(diǎn)到均值的距離分布,描述的是樣本集的分散程度,例如{0,8,12,20}和{8,9,11,12}兩個(gè)集合的均值都是10,計(jì)算兩者的標(biāo)準(zhǔn)差,前者是8.3,后者是1.8,顯然后者較為集中,其標(biāo)準(zhǔn)差小一些。
方差是標(biāo)準(zhǔn)差的平方,其計(jì)算公式如下:

此外,在機(jī)器學(xué)習(xí)中的方差就是估計(jì)值與其期望值的統(tǒng)計(jì)方差,計(jì)算方法如下式,其中[插圖]是模型的估計(jì)值,而[插圖]期望值,期望值[插圖],是由樣本的值xi與其發(fā)生概率相乘的總和表示,反映的是隨機(jī)變量均值。用估計(jì)值與期望值(均值)的差的平方表示模型預(yù)測(cè)穩(wěn)定性。

進(jìn)行大量的重復(fù)實(shí)驗(yàn),就會(huì)發(fā)現(xiàn)模型在樣本集上的結(jié)果值并非固定唯一,模型的輸出值會(huì)在一定范圍內(nèi)變化,這種變化的范圍越大,表示其方差就越大。
標(biāo)準(zhǔn)差和方差一般用來描述一維數(shù)據(jù)。面對(duì)多個(gè)維度的數(shù)據(jù)集,需要計(jì)算不同維度之間的關(guān)系,協(xié)方差主要用來度量?jī)蓚€(gè)隨機(jī)變量關(guān)系:

協(xié)方差的結(jié)果有什么意義呢?如果結(jié)果為正值,則說明兩者是正相關(guān)的(從協(xié)方差可以引出“相關(guān)系數(shù)”的定義)。結(jié)果為負(fù)值,說明兩者是負(fù)相關(guān)的。如果為0,就是統(tǒng)計(jì)上的“相互獨(dú)立”。
協(xié)方差只能處理二維問題,如果維數(shù)增加,就需要計(jì)算它們兩兩之間的協(xié)方差,這時(shí)就需要使用協(xié)方差矩陣了,以三維數(shù)據(jù)為例,數(shù)據(jù)集{x,y,z}的協(xié)方差矩陣如下:

可以看到,協(xié)方差矩陣是一個(gè)對(duì)稱的矩陣,而且對(duì)角線是各個(gè)變量上的方差,對(duì)應(yīng)n維數(shù)據(jù)x={x1,x2,…,xn}的協(xié)方差矩陣公式如下,其中μ是x的期望值。C=E{(x?μ)(x?μ)T}
5. 超參數(shù)
超參數(shù)是機(jī)器學(xué)習(xí)算法的調(diào)優(yōu)參數(shù)(tuning parameters),常應(yīng)用于估計(jì)模型參數(shù)的過程中,由用戶直接指定,可以使用啟發(fā)式方法來設(shè)置,并能依據(jù)給定的預(yù)測(cè)問題而調(diào)整。例如,訓(xùn)練神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速率或邏輯回歸損失函數(shù)中的正則化強(qiáng)度(regularization strength)等。需要注意,超參數(shù)與模型參數(shù)不同,模型參數(shù)是學(xué)習(xí)算法擬合訓(xùn)練數(shù)據(jù)獲得的參數(shù),即這些參數(shù)是作為模型本身的參數(shù)而存在的。例如,線性回歸的系數(shù)是模型參數(shù)。
6. 損失函數(shù)和風(fēng)險(xiǎn)函數(shù)
損失函數(shù)是關(guān)于模型計(jì)算結(jié)果f(x)和樣本實(shí)際目標(biāo)結(jié)果y的非負(fù)實(shí)值函數(shù),記作L(y,f(x)),用它來解釋模型在每個(gè)樣本實(shí)例上的誤差。損失函數(shù)的值越小,說明預(yù)測(cè)值與實(shí)際值越接近,即模型的擬合效果越好。損失函數(shù)主要包括以下幾種。
① 0-1損失函數(shù)。

0-1損失函數(shù)是一種最簡(jiǎn)單的損失函數(shù),如果實(shí)際值y與f(x)的值不相等,則認(rèn)為預(yù)測(cè)失敗。反之,預(yù)測(cè)成功,損失為0??梢姡摀p失函數(shù)不考慮預(yù)測(cè)值和真實(shí)值的誤差程度,只要預(yù)測(cè)錯(cuò)誤,即使預(yù)測(cè)誤差再小,也算預(yù)測(cè)錯(cuò)誤。
② 平方損失函數(shù)。L[y,f(x)]=[y?f(x)]2平方損失函數(shù)計(jì)算的是實(shí)際目標(biāo)值y與預(yù)測(cè)值f(x)之間的差的平方,其特點(diǎn)是非負(fù),將差值進(jìn)行放大。
③ 絕對(duì)損失函數(shù)。
L[y,f(x)]=|y?f(x)|絕對(duì)損失函數(shù)是將實(shí)際目標(biāo)值y與預(yù)測(cè)值f(x)之間的差求絕對(duì)值,損失函數(shù)的結(jié)果為非負(fù)。
④ 對(duì)數(shù)損失函數(shù)。L[y,f(x)]=-log2p(y|x)對(duì)數(shù)損失函數(shù)用到了極大似然估計(jì)的思想。p(y|x)是指在當(dāng)前模型的基礎(chǔ)上,對(duì)于輸入變量x,其預(yù)測(cè)值為y,也就是預(yù)測(cè)正確的概率。在公式中加負(fù)號(hào),表示預(yù)測(cè)正確的概率越高,其損失值應(yīng)該越小。
7. 訓(xùn)練誤差
統(tǒng)計(jì)學(xué)習(xí)方法具體采用的訓(xùn)練誤差評(píng)估與損失函數(shù)不一定完全相同,但兩者一致會(huì)有利于模型的改進(jìn)。上面的損失函數(shù)僅僅是對(duì)于一個(gè)樣本而言,而模型優(yōu)化目標(biāo)函數(shù)應(yīng)當(dāng)是使全局損失函數(shù)最小,即所有樣本的損失函數(shù)的均值,其中訓(xùn)練誤差可以表示為
對(duì)于平方損失函數(shù),就是對(duì)所有樣本的誤差求平方和,如下公式所示。為了求導(dǎo)方便,可以在前面乘以1/2。

損失函數(shù)的期望Rexp是模型關(guān)于聯(lián)合分布的期望損失,可以用如下公式表示,其中F是假設(shè)空間,也稱為風(fēng)險(xiǎn)函數(shù)或期望損失。

L[y,f(x)]可以認(rèn)為是模型的經(jīng)驗(yàn)風(fēng)險(xiǎn),是模型關(guān)于訓(xùn)練樣本集的平均損失。通常情況下,經(jīng)驗(yàn)風(fēng)險(xiǎn)可以由訓(xùn)練數(shù)據(jù)集的損失函數(shù)來確定。根據(jù)大數(shù)定律,當(dāng)樣本容量趨于無窮時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)趨向期望風(fēng)險(xiǎn)。根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的策略,最優(yōu)模型的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,那么就可以將模型選擇轉(zhuǎn)化為求解最小經(jīng)驗(yàn)風(fēng)險(xiǎn)的問題。這一理論的前提是訓(xùn)練樣本的數(shù)量要足夠多,但是在現(xiàn)實(shí)應(yīng)用中,這一條件很難滿足。
假如樣本數(shù)量較多,通過最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)即可,但是當(dāng)樣本量很少時(shí),經(jīng)驗(yàn)信息不足,通過最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)學(xué)習(xí)效果未必很好,當(dāng)模型的復(fù)雜度過大時(shí),訓(xùn)練誤差會(huì)逐漸減小并趨近于0;而測(cè)試誤差會(huì)先減小,達(dá)到最小值后又增大。當(dāng)選擇的模型復(fù)雜度多大時(shí),過擬合現(xiàn)象就會(huì)發(fā)生。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化(Structural Risk Min
mization,SRM)針對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化在小樣本量時(shí)易產(chǎn)生過擬合問題進(jìn)行了改進(jìn),增加了表示模型復(fù)雜度的正則化項(xiàng),對(duì)模型復(fù)雜度進(jìn)行限制。這一策略認(rèn)為結(jié)構(gòu)簡(jiǎn)單的模型最優(yōu),它的評(píng)估目標(biāo)是模型復(fù)雜度,在其他變量都相同的情況下,模型結(jié)構(gòu)風(fēng)險(xiǎn)最小化的定義如下:

其中[插圖]為模型的復(fù)雜度,模型f越復(fù)雜,復(fù)雜度[插圖]就越大;反之,模型f越簡(jiǎn)單,復(fù)雜度[插圖]就越小。λ≥0是系數(shù),用以權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型的復(fù)雜度。結(jié)構(gòu)風(fēng)險(xiǎn)小,要求經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度同時(shí)小。結(jié)構(gòu)風(fēng)險(xiǎn)小的模型往往對(duì)訓(xùn)練數(shù)據(jù)以及未知的測(cè)試數(shù)據(jù)都有較好的預(yù)測(cè)。當(dāng)模型是條件概率分布,損失函數(shù)是對(duì)數(shù)損失函數(shù)且模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí),結(jié)構(gòu)風(fēng)險(xiǎn)最小化就等價(jià)于最大后驗(yàn)概率估計(jì)。監(jiān)督學(xué)習(xí)問題就變成了經(jīng)驗(yàn)風(fēng)險(xiǎn)或結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)的最優(yōu)化問題,這時(shí)經(jīng)驗(yàn)或結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)是最優(yōu)化的目標(biāo)函數(shù)。
損失函數(shù)反映了模型預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間的差距,理解損失函數(shù)的本質(zhì),有助于對(duì)算法進(jìn)行優(yōu)化,需要結(jié)合業(yè)務(wù)目標(biāo)和數(shù)據(jù)特點(diǎn)對(duì)問題本質(zhì)進(jìn)行理解,并用數(shù)學(xué)公式進(jìn)行抽象,選擇較簡(jiǎn)單的實(shí)現(xiàn)方法應(yīng)用。
8. 正則化與交叉驗(yàn)證
正則化和交叉驗(yàn)證都是為了避免過擬合,其中正則化為了結(jié)構(gòu)風(fēng)險(xiǎn)最小化,在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加正則化項(xiàng)或懲罰項(xiàng),正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化值就越大。例如正則化項(xiàng)可以是模型參數(shù)向量的范數(shù)。正則化包括L0、L1、L2正則化,它們也被稱為范數(shù),對(duì)應(yīng)于結(jié)構(gòu)化風(fēng)險(xiǎn)最小化中的[插圖],即模型復(fù)雜度的罰項(xiàng),稱其為正則化項(xiàng)(Regularizer)。
如何增加正則化項(xiàng)呢?首先從理論上,任何函數(shù)都可以用多項(xiàng)式的方式去逼近,而在下面結(jié)構(gòu)化風(fēng)險(xiǎn)最小化公式中的f(X)自然就可以用f(X)=w0x0+w1x1+…+wnxn的形式來表示。

其中多項(xiàng)式函數(shù)中的wi就對(duì)應(yīng)模型的參數(shù),即模型訓(xùn)練出來的參數(shù)矩陣W。很容易理解模型越復(fù)雜,其中wi的個(gè)數(shù)就越多,所以增加規(guī)則項(xiàng)的任務(wù)就是減少wi的個(gè)數(shù),而L0、L1、L2這些正則化方法的目標(biāo)均是使模型參數(shù)向量簡(jiǎn)化。
(1)L0正則化
L0正則化是通過限制向量中非0的元素的個(gè)數(shù)實(shí)現(xiàn)模型優(yōu)化,用L0來正則化一個(gè)參數(shù)矩陣W,目標(biāo)是使其更稀疏,即W中的大部分元素都是0。很明顯,如果通過最小化L0范數(shù)作為罰項(xiàng),就是尋找最優(yōu)的稀疏特征項(xiàng)。但L0的最小化問題在實(shí)際應(yīng)用中是會(huì)出現(xiàn)NP難題(NP-Hard)。因此很多情況下,L0優(yōu)化問題會(huì)用L1、L2代替。
(2)L1正則化
L1正則化是通過對(duì)向量中各個(gè)元素絕對(duì)值之和進(jìn)行限制,任何規(guī)則化算子,如果在wi=0的地方不可微,并且可以分解為多項(xiàng)式的形式,那么這個(gè)規(guī)則化算子就可以實(shí)現(xiàn)稀疏。與L0范數(shù)相比,L1范數(shù)不僅可以實(shí)現(xiàn)稀疏,而且L1范數(shù)是L0范數(shù)的最優(yōu)凸近似,它比L0范數(shù)容易優(yōu)化求解。按照L1范數(shù)的定義,可以將結(jié)構(gòu)化風(fēng)險(xiǎn)中的模型復(fù)雜度[插圖]表示為[插圖],其中α表示正則化系數(shù),m是模型的階次,表示數(shù)據(jù)的維度。例如,m=2為二維的情況,只有兩個(gè)權(quán)值w1和w2,此時(shí)L=|w1|+|w2|,如圖2-1所示,其中圖2-1(a)是將w1和w2分別作為x、y坐標(biāo),L作為z坐標(biāo)繪制出來的,圖2-1(b)是圖2-1(a)的俯視圖,對(duì)于梯度下降法,求解的過程可以畫出等值線,如圖2-1(c)所示,不同色彩的圓圈表示損失函數(shù)在尋找最小值的過程,參數(shù)矩陣W按照最小二乘法計(jì)算損失函數(shù),不斷向最小值的位置迭代,與L1交界的地方就是取得的極值點(diǎn),這其實(shí)是兩個(gè)曲面相交的地方。

圖1 二維L1正則化
因?yàn)長(zhǎng)函數(shù)有很多“突出的角”(二維情況下有4個(gè)),損失函數(shù)與這些角接觸的概率會(huì)遠(yuǎn)大于與L的其他部位的接觸。而在這些角上,會(huì)有很多權(quán)值等于0,這就是L1正則化可以產(chǎn)生稀疏模型,進(jìn)而可以限制模型中參數(shù)的數(shù)量,降低模型復(fù)雜度,防止過擬合的原因。與L2相比,L1做得更徹底、更稀疏。
正則化前面的系數(shù)α,可以控制L圖形的大小,α越大,L的圖形就越小;而α越小,L的圖形越大。同樣地,損失函數(shù)的參數(shù)越多,圖中的圓圈就越大。可以看到α起到平衡兩者的作用,所以α也稱為學(xué)習(xí)率。
(3)L2正則化
L2正則化是指向量各元素求平方和然后求平方根,用模最小化來確保w的每個(gè)元素都很小,都接近于0,但與L1范數(shù)不同,它不會(huì)等于0,而是接近于0,如圖2-2(a)所示,在m為2時(shí)(數(shù)據(jù)只有2個(gè)維度),它就是一個(gè)拋物面,俯視圖如圖2-2(b)所示,就是一個(gè)圓,與方形相比,被磨去了棱角。

圖2 二維L2正則化
因此損失函數(shù)與L相交時(shí)使w1或w2等于零的概率小了許多,這就是L2正則化不具有稀疏性的原因。但是,L2正則化通過將目標(biāo)函數(shù)變?yōu)棣藦?qiáng)凸函數(shù),可以有效地加快梯度下降的收斂速度。
在算法調(diào)優(yōu)時(shí)需要注意選擇合適的正則化策略。L2準(zhǔn)確度高,但是訓(xùn)練時(shí)間長(zhǎng);L1正則化可以做一定的特征選擇,適合大量數(shù)據(jù),在樣本不均勻時(shí)可以調(diào)整損失函數(shù)中的權(quán)重。
擬合過程中,通常希望最后構(gòu)造的模型中,所有參數(shù)都比較小。這樣做可以減少模型的復(fù)雜度,適應(yīng)不同的數(shù)據(jù)集,也在一定程度上避免過擬合。例如,在線性回歸方程中,如果參數(shù)很大,那么只要數(shù)據(jù)偏移一點(diǎn)點(diǎn),就會(huì)對(duì)結(jié)果造成很大的影響,即參數(shù)小表示抗擾動(dòng)能力強(qiáng)。特別是特征數(shù)比樣本數(shù)量多時(shí),如果不加入L2正則化,會(huì)使模型的抗擾能力變差。而一旦加入正則化罰項(xiàng)之后,隨著不斷迭代,損失函數(shù)中的參數(shù)矩陣會(huì)不斷減小。
在交叉驗(yàn)證方面,一般情況下,將數(shù)據(jù)集隨機(jī)切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分,其中訓(xùn)練集用來訓(xùn)練模型,驗(yàn)證集用于訓(xùn)練過程中模型的驗(yàn)證和選擇,如果有多個(gè)模型,選擇其中最小預(yù)測(cè)誤差的模型,而測(cè)試集用于對(duì)最終訓(xùn)練完成的模型進(jìn)行評(píng)估。在實(shí)際應(yīng)用中,數(shù)據(jù)往往并不充足,此時(shí)可以采用交叉驗(yàn)證的方法,將訓(xùn)練集切分成很多份,然后進(jìn)行組合,以擴(kuò)大可用訓(xùn)練集的數(shù)量。按照樣本切分和組合方式,交叉驗(yàn)證分為以下幾種。
① HoldOut檢驗(yàn)。
將原始的數(shù)據(jù)集合隨機(jī)分成兩個(gè)集合A和B,A作為訓(xùn)練集,B作為測(cè)試集。先使用訓(xùn)練集訓(xùn)練模型,然后利用測(cè)試集驗(yàn)證模型的效果,記錄最后的分類準(zhǔn)確率作為該模型的性能指標(biāo),其準(zhǔn)確性可以用平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)等統(tǒng)計(jì)指標(biāo)來衡量。這種方法的好處是簡(jiǎn)單,只需要把原始數(shù)據(jù)分成兩個(gè)部分。但是嚴(yán)格意義上,Hold-Out檢驗(yàn)并不算是交叉檢驗(yàn)。
② 簡(jiǎn)單交叉驗(yàn)證。
首先,隨機(jī)地將數(shù)據(jù)集分成兩個(gè)部分,分別用作訓(xùn)練和測(cè)試,然后用訓(xùn)練集在各種條件下訓(xùn)練模型,得到不同的模型,在測(cè)試集上評(píng)價(jià)各個(gè)模型的測(cè)試誤差,選出測(cè)試誤差最小的模型。
③ k折交叉驗(yàn)證。
將數(shù)據(jù)切分為k個(gè)互不相交的大小相同數(shù)據(jù)集,利用k-1個(gè)子集訓(xùn)練,用剩下一個(gè)子集測(cè)試,重復(fù)k次,選出平均測(cè)試誤差最小的模型。顯然,k取值越大,統(tǒng)計(jì)偏誤就越小,但是需要的計(jì)算量越大。一些實(shí)驗(yàn)表明,當(dāng)k取10時(shí),在計(jì)算代價(jià)和性能之間能達(dá)到好的平衡。
④ 留一交叉驗(yàn)證。
在k折交叉驗(yàn)證中,當(dāng)k為所有樣本數(shù)N,在數(shù)據(jù)缺乏的情況下使用留一交叉驗(yàn)證。假設(shè)樣本數(shù)據(jù)集中有N個(gè)樣本。將其中一個(gè)樣本單獨(dú)作為測(cè)試集,其余N-1個(gè)樣本作為訓(xùn)練集,這樣得到了N個(gè)模型,用這N個(gè)模型的分類準(zhǔn)確率的平均數(shù)作為此分類器的性能指標(biāo)。留一交叉驗(yàn)證的優(yōu)點(diǎn)是每一個(gè)模型都是用幾乎所有的樣本來訓(xùn)練模型,并且評(píng)估的結(jié)果比較可靠。它的缺點(diǎn)是計(jì)算成本高,特別是當(dāng)N非常大時(shí),計(jì)算耗時(shí)。
2 常見概率分布
常見的概率分布有連續(xù)分布和離散分布兩類,其中連續(xù)分布包括均勻分布、正態(tài)分布、t-分布、卡方分布(χ2-distribution)和F-分布等,離散分布包括0-1分布、二項(xiàng)分布、泊松分布等。
(1)均勻分布是指概率的分布是等距的,分為連續(xù)型和離散型兩種,前者可以認(rèn)為是一條等距點(diǎn)構(gòu)成的曲線,后者是獨(dú)立的一個(gè)個(gè)點(diǎn)。
(2)正態(tài)分布即高斯分布,是自然界最常見的一種概率分布,是具有兩個(gè)參數(shù)μ和σ2的連續(xù)型隨機(jī)變量的分布,參數(shù)μ是遵從正態(tài)分布的隨機(jī)變量的均值,參數(shù)σ2是此隨機(jī)變量的方差,所以正態(tài)分布記作N(μ,σ2)。它具有以下特征。
① 集中性:正態(tài)曲線的高峰位于正中央,即均值所在的位置。
② 對(duì)稱性:正態(tài)曲線以均值為中心,左右對(duì)稱,曲線兩端不與橫軸相交。
③ 均勻變動(dòng)性:正態(tài)曲線由均值所在處開始,分別向左右兩側(cè)逐漸均勻下降。
④ 均值μ決定正態(tài)曲線的中心位置,標(biāo)準(zhǔn)差σ決定正態(tài)曲線的陡峭程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。
(3)t分布即學(xué)生t-分布(Student's t-distribution),用于根據(jù)小樣本來估計(jì)呈正態(tài)分布且方差未知的總體的均值。它的分布曲線形態(tài)與自由度df大小有關(guān),自由度df越小,t分布曲線越平坦,曲線中間越低,曲線雙側(cè)尾部翹得越高;而自由度df越大,t分布曲線越接近正態(tài)分布曲線,當(dāng)自由度df無窮大時(shí),t分布曲線為標(biāo)準(zhǔn)正態(tài)分布曲線。
如果總體方差已知(例如在樣本數(shù)量足夠多時(shí)),則應(yīng)該用正態(tài)分布來估計(jì)總體均值。它是對(duì)兩個(gè)樣本均值差異進(jìn)行顯著性測(cè)試的t檢驗(yàn)的基礎(chǔ)。t檢驗(yàn)改進(jìn)了Z檢驗(yàn)(Z test),不論樣本數(shù)量大小都可應(yīng)用。因?yàn)閆檢驗(yàn)用在小的樣本集上會(huì)產(chǎn)生很大的誤差,所以樣本很小的情況下一般用t檢驗(yàn)。
(4)卡方分布(chi-square distribution,χ2-distribution)是指若有k個(gè)獨(dú)立的標(biāo)準(zhǔn)正態(tài)分布變量,則稱其平方和服從自由度為k的卡方分布,它是一種特殊的伽馬分布,在假設(shè)檢驗(yàn)和置信區(qū)間的計(jì)算中應(yīng)用廣泛。由卡方分布可延伸出皮爾森卡方檢測(cè),常用于以下情況。
① 樣本集的某一屬性分布與整體分布之間的擬合程度,例如某校區(qū)中男女比是否符合此學(xué)校整體學(xué)生的男女比例。
② 兩個(gè)隨機(jī)變量獨(dú)立性驗(yàn)證,例如人的肥胖與心臟病的關(guān)聯(lián)性。
(5)F-分布(F-distribution)是一種連續(xù)概率分布,但它是一種非對(duì)稱分布,有兩個(gè)自由度,且位置不可互換,被廣泛應(yīng)用于似然比率檢驗(yàn)。
(6)二項(xiàng)分布(Binomial distribution)是n個(gè)獨(dú)立的伯努利(是或非)試驗(yàn)中成功的次數(shù)的離散概率分布。實(shí)際上,當(dāng)n=1時(shí),二項(xiàng)分布就是0-1分布,它是統(tǒng)計(jì)變量中只有性質(zhì)不同的兩項(xiàng)群體的概率分布。所謂兩項(xiàng)群體是按兩種不同性質(zhì)(如硬幣的正面和反面)劃分的統(tǒng)計(jì)變量,是二項(xiàng)試驗(yàn)的結(jié)果,兩項(xiàng)分布也是兩個(gè)對(duì)立事件的概率分布。它的前提條件是事件獨(dú)立,單次試驗(yàn)為相互對(duì)立的2個(gè)結(jié)果。
(7)0-1分布是n為1的二項(xiàng)分布,指取值范圍是0或者1的離散值,只先進(jìn)行一次事件試驗(yàn),該事件發(fā)生的概率為p,不發(fā)生的概率1-p。
(8)泊松分布(Poisson distribution)適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布,例如服務(wù)器在一定時(shí)間內(nèi)收到請(qǐng)求的次數(shù)、銀行柜臺(tái)接待的客戶數(shù)、汽車站臺(tái)的候客人數(shù)、機(jī)器出現(xiàn)的故障數(shù)、自然災(zāi)害發(fā)生的次數(shù)等。
3 參數(shù)估計(jì)
參數(shù)估計(jì)(parameter estimation)是統(tǒng)計(jì)推斷的一種基本形式,它用樣本統(tǒng)計(jì)量去估計(jì)總體的參數(shù),即根據(jù)樣本數(shù)據(jù)選擇統(tǒng)計(jì)量去推斷總體的分布或數(shù)字特征。估計(jì)參數(shù)的目的是希望用較少的樣本去描述數(shù)據(jù)的總體分布,前提是要了解樣本總體分布(如正態(tài)分布),這樣就只需要估計(jì)其中參數(shù)的值。如果無法確認(rèn)總體分布,那就要采用非參數(shù)估計(jì)的方法。
參數(shù)估計(jì)最早是在18世紀(jì)末由德國(guó)數(shù)學(xué)家高斯提出的,其中有多種方法,除了最基本的最小二乘法和極大似然法、貝葉斯估計(jì)、極大后驗(yàn)估計(jì),還有矩估計(jì)、一致最小方差無偏估計(jì)、最小風(fēng)險(xiǎn)估計(jì)、最小二乘法、最小風(fēng)險(xiǎn)法和極小化極大熵法等,隨著統(tǒng)計(jì)分析應(yīng)用越來越廣,參數(shù)估計(jì)有了飛速的發(fā)展。
點(diǎn)估計(jì)(point estimate)是用一個(gè)樣本點(diǎn)的估計(jì)量直接作為某一參數(shù)的估計(jì)值。
區(qū)間估計(jì)(interval estimate)是在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)的一個(gè)估計(jì)區(qū)間,該區(qū)間由樣本統(tǒng)計(jì)量加減估計(jì)誤差而得到,區(qū)間估計(jì)就是樣本統(tǒng)計(jì)量與總體參數(shù)的接近程度的一個(gè)概率度量,而這個(gè)區(qū)間就稱為置信區(qū)間。
參數(shù)估計(jì)的目標(biāo)是獲取一個(gè)估計(jì)函數(shù),向估計(jì)函數(shù)輸入測(cè)量數(shù)據(jù),輸出相應(yīng)參數(shù)的估計(jì)。通常希望得到的估計(jì)函數(shù)是最優(yōu)的,即所有的信息都被提取出來了,最大化代表了整體數(shù)據(jù)的特征。一般來說,求解估計(jì)函數(shù)需要三步:
① 確定系統(tǒng)的模型,建模過程中不確定性和噪聲也會(huì)混進(jìn)來。
② 確定估計(jì)器及其限制條件。
③ 驗(yàn)證是否為最優(yōu)估計(jì)器。
所謂的估計(jì)器可以理解為損失函數(shù)(cost function),上述過程不斷迭代,直到找到最優(yōu)估計(jì)器,此時(shí)的模型就具有最優(yōu)的置信度。
下面介紹最大似然估計(jì)(Maximum Likelihood Estimation,MLE)、貝葉斯估計(jì)(Bayes)和最大后驗(yàn)(Maximum a posteriori)估計(jì)。假設(shè)觀察的變量是x,觀察的變量取值(樣本)為X={x,…,xn},要估計(jì)的參數(shù)是θ,x的分布函數(shù)是p(x|θ),這里使用條件概率來說明這個(gè)分布是依賴于θ取值的。這里將其用標(biāo)量表示,在實(shí)際中x和θ都可以是幾個(gè)變量組成的向量。
(1)最大似然估計(jì)中的“似然”就是“事件發(fā)生的可能性”,最大似然估計(jì)就是要找到參數(shù)θ的一個(gè)估計(jì)值,使“事件發(fā)生的可能性”最大,也就是使p(X|θ)最大。一般來說,可以認(rèn)為多次取樣得到的x是獨(dú)立分布的:

由于p(xi)一般都比較小,且n一般都比較大,因此連乘容易造成浮點(diǎn)運(yùn)算下溢,所以通常都取最大化對(duì)應(yīng)的對(duì)數(shù)形式,將公式轉(zhuǎn)化為:

具體求解時(shí),可對(duì)θ求導(dǎo)數(shù),然后令導(dǎo)數(shù)為0,求出。
最大似然估計(jì)屬于點(diǎn)估計(jì),這種方法只能得到單個(gè)參數(shù)的估計(jì)值。很多時(shí)候,除了求解[插圖]的值外,還需要求解θ在數(shù)據(jù)X中的概率分布情況p(θ|X)。由于最大似然估計(jì)是根據(jù)樣本子集對(duì)總體分布情況進(jìn)行估計(jì),在樣本子集數(shù)據(jù)量較少時(shí)結(jié)果并不準(zhǔn)確。
(2)貝葉斯估計(jì)解決的是概率估計(jì)問題。即已知一些樣本,并且它們滿足某種分布,需要估計(jì)這種分布的參數(shù)或者新數(shù)據(jù)出現(xiàn)的概率。最大似然估計(jì)是在對(duì)被估計(jì)量沒有任何先驗(yàn)知識(shí)的前提下求得的。使用貝葉斯公式,可以把關(guān)于θ的先驗(yàn)知識(shí)以及觀察數(shù)據(jù)結(jié)合起來,用以確定θ的后驗(yàn)概率p(θ|X):

其中,

是累積因子,以保證p(θ|X)的和等于1。前提條件是需要知道關(guān)于θ的先驗(yàn)知識(shí),即不同取值的概率p(θ),例如θ=1表示考試及格,θ=0表示不及格,可以根據(jù)學(xué)習(xí)情況大體估計(jì)θ=1的可能性為80%,即p(θ=1)=0.8,而p(θ=0)=0.2。
在某個(gè)確定的θ取值下,事件x的概率就是p(x|θ),這是關(guān)于θ的函數(shù),其中X集合中的各樣本是相互獨(dú)立的,p(X|θ)就可以展開成連乘形式,從而得到p(θ|X)的表達(dá)式,不同的θ對(duì)應(yīng)不同的后驗(yàn)概率。這樣就可以選取一個(gè)θ,使p(θ|X)的值最大。貝葉斯估計(jì)對(duì)所有θ的取值都進(jìn)行了計(jì)算,有時(shí)只希望獲得一個(gè)使p(θ|X)最大化的θ即可。
(3)最大后驗(yàn)估計(jì)(MAP)運(yùn)用了貝葉斯估計(jì)的思想,從貝葉斯估計(jì)的公式可以看到ZX與θ是無關(guān)的,要得到使p(θ|X)最大的θ,等價(jià)于求解下面的式子:

與最大似然估計(jì)一樣,通常最大化對(duì)應(yīng)的對(duì)數(shù)形式是將上述式子轉(zhuǎn)化為:

這樣就可以不用計(jì)算ZX,也不需要求所有的樣本概率p(θ|X)的值,就可以求得最大化的。
上述三種方法的應(yīng)用場(chǎng)合不同,當(dāng)先驗(yàn)概率p(θ)很確定的情況下,可以使用最大后驗(yàn)估計(jì)或貝葉斯估計(jì),其中貝葉斯可以取得后驗(yàn)概率的分布情況,而最大后驗(yàn)估計(jì)只關(guān)心最大化結(jié)果的θ值。當(dāng)然,如果對(duì)先驗(yàn)知識(shí)沒有信心,可以使用最大似然估計(jì)。
4 假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn)是先對(duì)總體的參數(shù)(或分布形式)提出某種假設(shè),然后利用樣本信息判斷假設(shè)是否成立的過程。假設(shè)檢驗(yàn)的基本思想是小概率反證法思想。所謂的小概率是指其發(fā)生的可能性低于1%或低于5%,在一次試驗(yàn)中基本上不會(huì)發(fā)生。反證法是先提出假設(shè),再用統(tǒng)計(jì)方法確定假設(shè)成立的可能性大小,如可能性小,則認(rèn)為假設(shè)不成立。
假設(shè)檢驗(yàn)包括原假設(shè)(null hypothesis,也叫零假設(shè))與備擇假設(shè)(alternative hypothesis,也叫備選假設(shè))。其中檢驗(yàn)假設(shè)正確性的是原假設(shè)(null hypothesis),表明研究者對(duì)未知參數(shù)可能數(shù)值的看法;而備擇假設(shè)通常反映研究者對(duì)參數(shù)可能數(shù)值對(duì)立的看法。例如,對(duì)一個(gè)人是否犯罪進(jìn)行認(rèn)定,如果首先假設(shè)他/她無罪,來進(jìn)行無罪檢驗(yàn),就是原假設(shè);如果假定這個(gè)人是有罪的,來搜集有罪證據(jù)證明他/她是有罪,這就是備擇假設(shè)。檢驗(yàn)是否有罪的過程就相當(dāng)于用t檢驗(yàn)或Z檢驗(yàn)去檢視搜集到的證據(jù)資料。
假設(shè)檢驗(yàn)的過程是確認(rèn)問題,尋找證據(jù),基于某一標(biāo)準(zhǔn)做出結(jié)論。具體如下:首先對(duì)總體做出原假設(shè)H0和備擇假設(shè)H1;確定顯著性水平α;選擇檢驗(yàn)統(tǒng)計(jì)量并依據(jù)α確定拒絕域(拒絕H0的統(tǒng)計(jì)量結(jié)果區(qū)域);抽樣得到樣本觀察值,并計(jì)算實(shí)測(cè)樣本統(tǒng)計(jì)量的值,如果在拒絕域中,則拒絕原假設(shè)H0,反之,拒絕原假設(shè)的證據(jù)不足(并非原假設(shè)成立)。
顯著性檢驗(yàn)是先認(rèn)為某一假設(shè)H0成立,然后利用樣本信息驗(yàn)證假設(shè)。例如,首先假設(shè)人的收入是服從正態(tài)分布的,當(dāng)收集了一定的收入數(shù)據(jù)后,可以評(píng)價(jià)實(shí)際數(shù)據(jù)與理論假設(shè)H0之間的偏離,如果偏離達(dá)到了“顯著”的程度就拒絕H0假設(shè),這樣的檢驗(yàn)方法稱為顯著性檢驗(yàn),如圖3所示。

圖3 顯著性水平
顯著程度從中心的H0“非常顯著”開始向外不斷移動(dòng),當(dāng)偏離達(dá)到某一較低顯著的程度α(如0.05)時(shí),再看H0假設(shè),已經(jīng)很難證明其正確了,這時(shí)就可以認(rèn)為H0假設(shè)不成立,也就是被拒絕了,它成立的概率不超過α,稱α為顯著性水平。這種假設(shè)檢驗(yàn)的好處是不用考慮備擇假設(shè),只關(guān)心實(shí)驗(yàn)數(shù)據(jù)與理論之間擬合的程度,所以也稱之為擬合優(yōu)度檢驗(yàn)。
5 線性回歸
線性回歸(Linear Regression)是一種通過擬合自變量與因變量之間最佳線性關(guān)系,來預(yù)測(cè)目標(biāo)變量的方法?;貧w過程是給出一個(gè)樣本集,用函數(shù)擬合這個(gè)樣本集,使樣本集與擬合函數(shù)間的誤差最小。生物統(tǒng)計(jì)學(xué)家高爾頓研究父母和子女身高的關(guān)系時(shí)發(fā)現(xiàn):即使父母的身高都“極端”高,其子女不見得會(huì)比父母高,而是有“衰退”(Regression)至平均身高的傾向。具體地說,回歸分析包括以下內(nèi)容。
(1)確定輸入變量與目標(biāo)變量間的回歸模型,即變量間相關(guān)關(guān)系的數(shù)學(xué)表達(dá)式。
(2)根據(jù)樣本估計(jì)并檢驗(yàn)回歸模型及未知參數(shù)。
(3)從眾多的輸入變量中,判斷哪些變量對(duì)目標(biāo)變量的影響是顯著的。
(4)根據(jù)輸入變量的已知值來估計(jì)目標(biāo)變量的平均值并給出預(yù)測(cè)精度。
線性回歸的類型包括簡(jiǎn)單線性回歸和多元線性回歸。簡(jiǎn)單線性回歸使用一個(gè)自變量,通過擬合最佳線性關(guān)系來預(yù)測(cè)因變量。多元線性回歸使用多個(gè)獨(dú)立變量,通過擬合最佳線性關(guān)系來預(yù)測(cè)因變量。
【例1】已知一個(gè)貿(mào)易公司某幾個(gè)月的廣告費(fèi)用和銷售額,如表1所示。
表1 某公司的月度廣告費(fèi)用與銷售費(fèi)用

可以看到隨著廣告費(fèi)用的增長(zhǎng),公司的銷售額也在增加,但是它們并非是絕對(duì)的線性關(guān)系,而是趨向于平均,如圖4所示。

圖4 線性回歸示例
上述線性回歸模型的公式為:y=1.38×x+30.6,其中x表示廣告費(fèi)用,y表示銷售額。通過線性回歸的公式就可以預(yù)測(cè)企業(yè)的銷售額了,例如回答“下一季度要提高銷售額至200萬元,那么廣告費(fèi)用需要投放多少”等諸如此類問題。
問題的關(guān)鍵是如何獲得回歸模型的公式?一元線性回歸本質(zhì)上就是一條直線y=ax+b,只要找到一條直線,所有點(diǎn)到這條直線的距離最小。每一個(gè)點(diǎn)對(duì)應(yīng)(x,y)坐標(biāo),是實(shí)際的點(diǎn),而通過回歸公式預(yù)測(cè)的縱坐標(biāo)值為y=ax+b,將所有點(diǎn)的預(yù)測(cè)值與實(shí)際值的差進(jìn)行平方后求和,就可以算出這條直線總的誤差Q(a,b):

要想求出公式中的a,b值,只需要使得Q(a,b)取極小值即可,式中的Q(a,b)為關(guān)于a和b的二元函數(shù)。
如何評(píng)價(jià)回歸模型的好壞?通過統(tǒng)計(jì)學(xué)中的R2(Coefficient of Determination),也稱為判定系數(shù)、擬合優(yōu)度、決定系數(shù)等,來判斷回歸方程的擬合程度。R2是如何計(jì)算的?首先要明確以下幾個(gè)概念。
總偏差平方和(Sum of Squares forTotal,SST)是每個(gè)因變量的實(shí)際值(公式中的)與其平均值(公式中的
)的差的平方和,反映了因變量取值的總體波動(dòng)情況,其值越大說明原始數(shù)據(jù)本身具有越大的波動(dòng),其公式如下。

例如,用銷售額與其平均銷售額的差的平方的和來表示銷售額整體的波動(dòng)情況,也就是說,這種波動(dòng)情況是由單個(gè)銷售額與均值之間的偏差指標(biāo)(SST)來表示的。
回歸平方和(Sum of Squares for Regression,SSR)是因變量的回歸值(由回歸方程中計(jì)算取得,對(duì)應(yīng)公式中的
)與其均值(公式中的)的差的平方和,它反映回歸直線的波動(dòng)情況。

例如,回歸線表示廣告費(fèi)這個(gè)變量對(duì)于總銷售額的影響,它只能解釋廣告費(fèi)帶來的影響,這種影響的偏差由SSR來表示。
殘差平方和(Sum of Squares for Error,SSE)又稱誤差平方和,表示因變量的實(shí)際值與回歸值[插圖]的差的平方和,它反映了回歸方程以外因素的影響,即回歸直線無法解釋的因素。

例如,廣告費(fèi)只是影響銷售額的其中一個(gè)比較重要的因素,但是除了廣告費(fèi)之外,還有其他因素如產(chǎn)品質(zhì)量、客戶服務(wù)水平等因素對(duì)銷售額產(chǎn)生影響,所以銷售額不能用回歸線來解釋的部分就由SSE來表示。
總的偏差可以用回歸方程偏差加上殘差偏差來表示,其公式如下,其中SST是總的偏差,SSR是回歸平方和,即回歸方程可以表示的偏差,SSE是回歸方程不能表示的偏差。SST=SSR+SSE回歸方程擬合程度的好壞是看這條回歸線能夠多大程度解釋目標(biāo)值(如銷售額)的變化,一般采用R2指標(biāo)來計(jì)算:

R2的取值為[0,1],從其定義可見,越接近1,擬合程度越好。當(dāng)R2為1時(shí)表示回歸方程可以完全解釋因變量的變化。如果R2很低時(shí),說明因變量和目標(biāo)變量之間可能并不存在線性關(guān)系。
調(diào)整R2是指對(duì)R2進(jìn)行修正后的值,對(duì)非顯著性變量給出懲罰,它沒有R2的統(tǒng)計(jì)學(xué)意義,與實(shí)際樣本的數(shù)值無關(guān),與R2相比,其誤差較少,是回歸分析中重要的評(píng)價(jià)指標(biāo),其值越大說明模型效果越好。
因變量預(yù)測(cè)標(biāo)準(zhǔn)誤差是指因變量的實(shí)際值與預(yù)測(cè)值的標(biāo)準(zhǔn)誤差,其值越小說明模型的準(zhǔn)確性越高,代表性越強(qiáng),擬合性越好。
F值在方差分析表中查看,用于檢測(cè)回歸方法的相關(guān)關(guān)系是否顯著。如果顯著性水平Sig指標(biāo)大于0.05,表示相關(guān)性較弱,沒有實(shí)際意義。如果發(fā)現(xiàn)模型的Sig指標(biāo)低于0.05,但是各自變量的Sig指標(biāo)均超過0.05,就需要應(yīng)用t檢驗(yàn)查看回歸系數(shù)表中各變量的顯著性水平,或者是自變量之間出現(xiàn)了共線性問題,需要通過逐步回歸的方法將顯著性較差的自變量剔除。
n顯示的是應(yīng)用于模型的實(shí)際樣本數(shù)量,可能有部分?jǐn)?shù)據(jù)為空值或其他異常值,導(dǎo)致模型的個(gè)案數(shù)少于樣本數(shù)。如果發(fā)現(xiàn)其值較大,需要對(duì)數(shù)據(jù)重新進(jìn)行預(yù)處理。
多元回歸方程公式為:y=b0+b1x1+b2x2+…+bkxk+ε要求每個(gè)xi必須是相互獨(dú)立的,其中bi表示回歸系數(shù),ε為隨機(jī)誤差,其評(píng)價(jià)指標(biāo)主要有以下幾個(gè)。
(1)非標(biāo)準(zhǔn)化系數(shù)
非標(biāo)準(zhǔn)化系數(shù)(Unstandardized Coefficients)bi在幾何上表現(xiàn)是斜率,其數(shù)值與實(shí)際的自變量數(shù)值的單位之間無法進(jìn)行比較。為了對(duì)非標(biāo)準(zhǔn)化系數(shù)的準(zhǔn)確性進(jìn)行度量,使用非標(biāo)準(zhǔn)化系數(shù)誤差(SER)來對(duì)樣本統(tǒng)計(jì)量的離散程度和誤差進(jìn)行衡量,也稱為標(biāo)準(zhǔn)誤差,它表示樣本平均值作為總體平均估計(jì)值的準(zhǔn)確度,SER值越小說明系數(shù)預(yù)測(cè)的準(zhǔn)確性越高。
(2)標(biāo)準(zhǔn)化系數(shù)(Standardized Coefficients)
在多元回歸分析中由于各自變量的單位可能不一致,就難以看出哪一個(gè)自變量的權(quán)重較高,為了比較各自變量的相對(duì)重要性,將系數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化系數(shù)大的自變量重要性較高。
(3)t檢驗(yàn)及其顯著性水平(Sig)
t值是由系數(shù)除以標(biāo)準(zhǔn)誤得到的,t值相對(duì)越大表示模型能有越高的精度估計(jì)系數(shù),其Sig指標(biāo)小于0.05說明顯著性水平較高,如果t值較小且Sig指標(biāo)較高,說明變量的系數(shù)難以確認(rèn),需要將其從自變量中剔除,然后繼續(xù)進(jìn)行分析。
(4)B的置信區(qū)間(95% Confidence Interval for B Upper/Lower Bound)檢驗(yàn)B的顯著性水平,主要為了彌補(bǔ)t檢驗(yàn)和Sig值的不足,如果B的置信區(qū)間下限和上限之間包含了0值,即下限小于0而上限大于0,則說明變量不顯著。
6 邏輯回歸
邏輯回歸(Logistic Regression)是一種預(yù)測(cè)分析,解釋因變量與一個(gè)或多個(gè)自變量之間的關(guān)系,與線性回歸不同之處就是它的目標(biāo)變量有幾種類別,所以邏輯回歸主要用于解決分類問題。與線性回歸相比,它是用概率的方式,預(yù)測(cè)出屬于某一分類的概率值。如果概率值超過50%,則屬于某一分類。此外,它的可解釋強(qiáng),可控性高,并且訓(xùn)練速度快,特別是經(jīng)過特征工程之后效果更好。
按照邏輯回歸的基本原理,求解過程可以分為以下三步。
(1)找一個(gè)合適的預(yù)測(cè)分類函數(shù),用來預(yù)測(cè)輸入數(shù)據(jù)的分類結(jié)果,一般表示為h函數(shù),需要對(duì)數(shù)據(jù)有一定的了解或分析,然后確定函數(shù)的可能形式。
(2)構(gòu)造一個(gè)損失函數(shù),該函數(shù)表示預(yù)測(cè)輸出(h)與訓(xùn)練數(shù)據(jù)類別(y)之間的偏差,一般是預(yù)測(cè)輸出與實(shí)際類別的差,可對(duì)所有樣本的偏差求R2值等作為評(píng)價(jià)標(biāo)準(zhǔn),記為J(θ)函數(shù)。
(3)找到J(θ)函數(shù)的最小值,因?yàn)橹翟叫”硎绢A(yù)測(cè)函數(shù)越準(zhǔn)確。求解損失函數(shù)的最小值是采用梯度下降法(Gradient Descent)。
二分類問題中一般使用Sigmoid函數(shù)作為預(yù)測(cè)分類函數(shù),其函數(shù)公式為[插圖],對(duì)應(yīng)的函數(shù)圖像是一條取值在0和1之間的S形曲線,如圖5所示。

圖5 Sigmoid函數(shù)
二分類問題使用概率來實(shí)現(xiàn)預(yù)測(cè),首先構(gòu)造h函數(shù):hθ(x)=g(θ0+θ1x1+θ2x2)其中,θ0,θ1,θ2就是要求解的方程參數(shù)值,θ0為截距。假設(shè)X是自變量的矩陣,θ是線性方程系數(shù)矩陣:X=(x1,x2)T,θ=(θ1,θ2)T對(duì)h函數(shù)表示形式進(jìn)行簡(jiǎn)化,得到如下公式:

其中,hθ(x)函數(shù)的值表示概率值,即結(jié)果取1的概率,因此,對(duì)于輸入x,分類屬于類別1和類別0的概率分別用如下公式表示:
p(y=1|x;θ)=hθ(x)
p(y=0|x;θ)=1?hθ(x)
當(dāng)函數(shù)的結(jié)果大于50%時(shí),可以認(rèn)為屬于類別1的可能性較高,當(dāng)然,閾值50%可以結(jié)合實(shí)際業(yè)務(wù)進(jìn)行調(diào)整。
在求解過程中,關(guān)鍵是如何確定θ的值?首先要定義損失函數(shù)J(θ),即誤差評(píng)價(jià)指標(biāo)。在邏輯回歸中損失函數(shù)采用對(duì)數(shù)損失函數(shù):

當(dāng)真實(shí)值y=1時(shí),
,當(dāng)預(yù)測(cè)值越接近1,
就越接近值0,表示損失函數(shù)值越小,誤差越小。而當(dāng)預(yù)測(cè)值
越接近于0時(shí),
就越接近負(fù)無窮,加上負(fù)號(hào)后就代表誤差越大。
當(dāng)真實(shí)值y=0時(shí),
,當(dāng)預(yù)測(cè)值[插圖]越接近0,也越接近0,表示損失函數(shù)值越小,誤差越小。而當(dāng)預(yù)測(cè)值
越接近1,
越接近負(fù)無窮,加上負(fù)號(hào)后就代表誤差越大。
基于上述損失函數(shù)公式,計(jì)算所有樣本的損失函數(shù)結(jié)果,并采用梯度下降法不斷迭代求偏導(dǎo),逐漸逼近θ的最佳值,使損失函數(shù)取得極小值。其中損失函數(shù)一般采用最大似然估計(jì)或?qū)?shù)似然函數(shù)來代替。對(duì)邏輯回歸算法的效果評(píng)估,一般采用曲線下面積(Area Under the Curve,AUC)指標(biāo)來評(píng)價(jià)。
7 判別分析
判別分析是通過對(duì)類別已知的樣本進(jìn)行判別模型,從而實(shí)現(xiàn)對(duì)新樣本的類別進(jìn)行判斷。它包括線性判別分析(Linear Discriminant Analysis,LDA)和二次判別分析(Quadratic Discriminant Analysis,QDA)兩種類型。
二次判別分析是針對(duì)那些服從高斯分布,且均值不同,方差也不同的樣本數(shù)據(jù)而設(shè)計(jì)的。它對(duì)高斯分布的協(xié)方差矩陣不做任何假設(shè),直接使用每個(gè)分類下的協(xié)方差矩陣,因?yàn)閿?shù)據(jù)方差相同的時(shí)候,一次判別就可以,但如果類別間的方差相差較大時(shí),就變成了一個(gè)關(guān)于x的二次函數(shù),就需要使用二次決策平面。
【例2】通過實(shí)例比較LDA和QDA的區(qū)別和分類效果?;趕klearn開源庫中的discriminant_analysis模塊內(nèi)置LDA和QDA算法類,對(duì)隨機(jī)生成的高斯分布的樣本數(shù)據(jù)集進(jìn)行分類,數(shù)據(jù)集的樣本數(shù)為50,生成的數(shù)據(jù)集中一半是具有相同協(xié)方差矩陣的,另一半的協(xié)方差矩陣不相同。
LDA和QDA的預(yù)測(cè)過程均很簡(jiǎn)單,核心代碼如下所示。
#LDA預(yù)測(cè)
lda = LinearDiscriminantAnalysis(solver="svd", store_covariance=True)
y_pred = lda.fit(X, y).predict(X)
splot = plot_data(lda, X, y, y_pred, fig_index=2 * i + 1)
#QDA預(yù)測(cè)
qda = QuadraticDiscriminantAnalysis(store_covariances=True)
y_pred = qda.fit(X, y).predict(X)
splot = plot_data(qda, X, y, y_pred, fig_index=2 * i + 2)
其中plot_data()方法為自定義可視化函數(shù),主要包括繪制分類區(qū)域和樣本的預(yù)測(cè)結(jié)果等,對(duì)于預(yù)測(cè)錯(cuò)誤的樣本用五角星顯示,兩種算法的效果比較如圖6所示。第一行的樣本數(shù)據(jù)具有相同協(xié)方差矩陣,對(duì)于這類數(shù)據(jù),LDA和QDA兩種方法都可以預(yù)測(cè)正確。
圖6(c)和圖2-6(d)是針對(duì)具有不同協(xié)方差矩陣的樣本進(jìn)行的分類,可見,線性判別分析只能學(xué)習(xí)到線性邊界,而二次判別分析可以學(xué)到二次邊界,所以更加靈活。

圖6 二次判別決策面運(yùn)行效果
QDA和LDA的算法相似,它們之間的區(qū)別主要受方差和偏差兩個(gè)因素的影響。模型的預(yù)測(cè)值和實(shí)際值之間的差異可以分解為方差和偏差的綜合,對(duì)于方差較高、誤差較低的模型通常比較靈敏,這種情況的模型并沒有變化,只是樣本數(shù)據(jù)改變,其預(yù)測(cè)結(jié)果會(huì)產(chǎn)生較大的變化。反之,誤差較高、方差較低的模型一般會(huì)比較遲鈍,即使模型發(fā)生變化,依然不會(huì)使預(yù)測(cè)值改變。因此在其中如何取舍,就成了一個(gè)很重要的問題。
LDA的結(jié)果中方差較低,而QDA算法的相對(duì)誤差更低。因此,在對(duì)協(xié)方差矩陣很難估計(jì)準(zhǔn)確時(shí)(例如在樣本集比較少的情況下)適合采用LDA算法。而當(dāng)樣本集很大,或者類間協(xié)方差矩陣差異比較大的時(shí)候,采用QDA更加合適。
8 非線性模型
在統(tǒng)計(jì)學(xué)中,非線性回歸是回歸分析的一種形式,非線性模型是由一個(gè)或多個(gè)自變量非線性組合而成的。以下是一些常見的非線性模型。
1. 階躍函數(shù)
階躍函數(shù)的變量是實(shí)數(shù),階躍函數(shù)就是一個(gè)分段函數(shù)。
2. 分段函數(shù)
分段函數(shù)是一個(gè)函數(shù),不同的自變量取值區(qū)間分別對(duì)應(yīng)不同的子函數(shù),分段是一種函數(shù)表達(dá)方式,用來描述函數(shù)在不同子域區(qū)間上的性質(zhì)。不同子函數(shù)的性質(zhì)不能代表整個(gè)函數(shù)的性質(zhì),在離散性較強(qiáng)的系統(tǒng)中,用分段函數(shù)表示不同狀態(tài)下模型的輸出。
3. 樣條曲線
樣條曲線是由多項(xiàng)式定義的分段函數(shù)。在計(jì)算機(jī)圖形學(xué)中,樣條曲線是指一個(gè)分段多項(xiàng)式參數(shù)曲線。其結(jié)構(gòu)簡(jiǎn)單、精度高,可通過曲線擬合復(fù)雜形狀。
4. 廣義加性模型
廣義加性模型(GAM)是一種廣義線性模型,其中線性預(yù)測(cè)因子線性地依賴于某些自變量的未知平滑函數(shù)??蓪?duì)部分或全部的自變量采用平滑函數(shù)的方法建立模型。
謝謝大家觀看,如有幫助,來個(gè)喜歡或者關(guān)注吧!
本文僅供學(xué)習(xí)參考,有任何疑問及建議,掃描以下公眾號(hào)二維碼添加交流:
更多學(xué)習(xí)內(nèi)容,僅在知識(shí)星球發(fā)布:
