集成學(xué)習(xí)Bagging和Boosting簡(jiǎn)述
集成學(xué)習(xí)是時(shí)下非常火爆的一款機(jī)器學(xué)習(xí)方法,是將多個(gè)弱分類(lèi)器按照某種方式組合起來(lái),形成一個(gè)強(qiáng)分類(lèi)器,以此來(lái)獲得比單個(gè)模型更好的回歸和分類(lèi)表現(xiàn),其常用的方法有 Bagging 和 Boosting。
Bagging
把數(shù)據(jù)集通過(guò)有放回的抽樣方式,一次性建立多個(gè)平行獨(dú)立的弱評(píng)估器。針對(duì)分類(lèi)問(wèn)題,按照少數(shù)服從多數(shù)原則進(jìn)行投票,針對(duì)回歸問(wèn)題,求多個(gè)測(cè)試結(jié)果的平均值。其代表模型為隨機(jī)森林。

Boosting
Bagging 是以自適應(yīng)的方法按順序一一學(xué)習(xí)這些弱學(xué)習(xí)器,即每個(gè)新學(xué)習(xí)器都依賴(lài)于前面的模型,并按照某種確定性的策略將它們組合起來(lái) ,其核心思想是結(jié)合弱評(píng)估器的力量一次次對(duì)難以評(píng)估的樣本進(jìn)行預(yù)測(cè),從而構(gòu)成一個(gè)強(qiáng)評(píng)估器。其代表算法為 AdaBoost 和 GBDT (梯度提升)。

AdaBoost 與 GBDT 的區(qū)別
AdaBoost
第一顆樹(shù)建模完成后,對(duì)模型進(jìn)行評(píng)估,然后將模型預(yù)測(cè)錯(cuò)誤的樣本反饋給我們的數(shù)據(jù)集,第一次迭代就算完成。在第二次有放回抽樣時(shí),被給予前面錯(cuò)誤預(yù)測(cè)的數(shù)據(jù)更高權(quán)重,簡(jiǎn)單來(lái)說(shuō)就是前面被判斷錯(cuò)誤的樣本更有可能被我們抽中。
GBDT
第一顆樹(shù)建模完成后,把其殘差(真實(shí)值和預(yù)測(cè)值之間的差值)結(jié)果作為下一次預(yù)測(cè)依據(jù),依次類(lèi)推,直到殘差小于某個(gè)接近 0 的閥值或回歸樹(shù)數(shù)目達(dá)到某一閥值。其核心思想是每輪通過(guò)擬合殘差來(lái)降低損失函數(shù)。
Boosting 與 Bagging 的區(qū)別:
評(píng)估器:Bagging 的基分類(lèi)器訓(xùn)練是獨(dú)立的,而 Boosting 的訓(xùn)練集是依賴(lài)于之前的模型;
作用:Bagging 的作用是減少方差,提升模型的整體穩(wěn)定性,而 Boosting 在于減少偏差,提高模型整體的精確度;
抽樣數(shù)據(jù)集:Bagging 是有放回抽樣,Boosting 也是有放回抽樣,但是會(huì)確認(rèn)數(shù)據(jù)的權(quán)重。
