1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        機(jī)器學(xué)習(xí)中常用的5種回歸損失函數(shù)

        共 5645字,需瀏覽 12分鐘

         ·

        2022-11-24 21:12

        點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

        重磅干貨,第一時(shí)間送達(dá)

        “損失函數(shù)”是機(jī)器學(xué)習(xí)優(yōu)化中至關(guān)重要的一部分。L1、L2損失函數(shù)相信大多數(shù)人都早已不陌生。那你了解Huber損失、Log-Cosh損失、以及常用于計(jì)算預(yù)測區(qū)間的分位數(shù)損失么?這些可都是機(jī)器學(xué)習(xí)大牛最常用的回歸損失函數(shù)哦!


        機(jī)器學(xué)習(xí)中所有的算法都需要最大化或最小化一個(gè)函數(shù),這個(gè)函數(shù)被稱為“目標(biāo)函數(shù)”。其中,我們一般把最小化的一類函數(shù),稱為“損失函數(shù)”。它能根據(jù)預(yù)測結(jié)果,衡量出模型預(yù)測能力的好壞。


        在實(shí)際應(yīng)用中,選取損失函數(shù)會受到諸多因素的制約,比如是否有異常值、機(jī)器學(xué)習(xí)算法的選擇、梯度下降的時(shí)間復(fù)雜度、求導(dǎo)的難易程度以及預(yù)測值的置信度等等。因此,不存在一種損失函數(shù)適用于處理所有類型的數(shù)據(jù)。這篇文章就講介紹不同種類的損失函數(shù)以及它們的作用。


        損失函數(shù)大致可分為兩類:分類問題的損失函數(shù)和回歸問題的損失函數(shù)。在這篇文章中,我將著重介紹回歸損失。


        本文出現(xiàn)的代碼和圖表我們都妥妥保存在這兒了:https://nbviewer.jupyter.org/github/groverpr/Machine-Learning/blob/master/notebooks/05_Loss_Functions.ipynb


        分類、回歸問題損失函數(shù)對比



        01

        均方誤差






        均方誤差(MSE)是最常用的回歸損失函數(shù),計(jì)算方法是求預(yù)測值與真實(shí)值之間距離的平方和,公式如圖。


        下圖是MSE函數(shù)的圖像,其中目標(biāo)值是100,預(yù)測值的范圍從-10000到10000,Y軸代表的MSE取值范圍是從0到正無窮,并且在預(yù)測值為100處達(dá)到最小。


        MSE損失(Y軸)-預(yù)測值(X軸)



        02

        平均絕對值誤差 L1損失





        平均絕對誤差(MAE)是另一種用于回歸模型的損失函數(shù)。MAE是目標(biāo)值和預(yù)測值之差的絕對值之和。其只衡量了預(yù)測值誤差的平均模長,而不考慮方向,取值范圍也是從0到正無窮(如果考慮方向,則是殘差/誤差的總和——平均偏差(MBE))。


        MAE損失(Y軸)-預(yù)測值(X軸)



        03

        MSE與MAE的比較




        簡單來說,MSE計(jì)算簡便,但MAE對異常點(diǎn)有更好的魯棒性。下面就來介紹導(dǎo)致二者差異的原因。


        訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型時(shí),我們的目標(biāo)就是找到損失函數(shù)達(dá)到極小值的點(diǎn)。當(dāng)預(yù)測值等于真實(shí)值時(shí),這兩種函數(shù)都能達(dá)到最小。


        下面是這兩種損失函數(shù)的python代碼。你可以自己編寫函數(shù),也可以使用sklearn內(nèi)置的函數(shù)。

        <pre style="margin: 0px; padding: 0px; max-width: 100%;box-sizing: border-box !important; word-wrap: break-word !important; color: rgb(51, 51, 51); font-size: 17px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: 0.544000029563904px; line-height: 27.2000007629395px; orphans: auto; text-align: justify; text-indent: 0px; text-transform: none; widows: 1; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);">true: Array of true target variablepred: Array of predictionsdef mse(true, pred):return np.sum((true - pred)**2)def mae(true, pred):return np.sum(np.abs(true - pred))also available in sklearnfrom sklearn.metrics import mean_squared_errorfrom sklearn.metrics import mean_absolute_error</pre>

        下面讓我們觀察MAE和RMSE(即MSE的平方根,同MAE在同一量級中)在兩個(gè)例子中的計(jì)算結(jié)果。第一個(gè)例子中,預(yù)測值和真實(shí)值很接近,而且誤差的方差也較小。第二個(gè)例子中,因?yàn)榇嬖谝粋€(gè)異常點(diǎn),而導(dǎo)致誤差非常大。


        左圖:誤差比較接近 右圖:有一個(gè)誤差遠(yuǎn)大于其他誤差

        從圖中可以知道什么?應(yīng)當(dāng)如何選擇損失函數(shù)?


        MSE對誤差取了平方(令e=真實(shí)值-預(yù)測值),因此若e>1,則MSE會進(jìn)一步增大誤差。如果數(shù)據(jù)中存在異常點(diǎn),那么e值就會很大,而e2則會遠(yuǎn)大于|e|。


        直觀上可以這樣理解:如果我們最小化MSE來對所有的樣本點(diǎn)只給出一個(gè)預(yù)測值,那么這個(gè)值一定是所有目標(biāo)值的平均值。但如果是最小化MAE,那么這個(gè)值,則會是所有樣本點(diǎn)目標(biāo)值的中位數(shù)。眾所周知,對異常值而言,中位數(shù)比均值更加魯棒,因此MAE對于異常值也比MSE更穩(wěn)定。


        然而MAE存在一個(gè)嚴(yán)重的問題(特別是對于神經(jīng)網(wǎng)絡(luò)):更新的梯度始終相同,也就是說,即使對于很小的損失值,梯度也很大。這樣不利于模型的學(xué)習(xí)。為了解決這個(gè)缺陷,我們可以使用變化的學(xué)習(xí)率,在損失接近最小值時(shí)降低學(xué)習(xí)率。


        而MSE在這種情況下的表現(xiàn)就很好,即便使用固定的學(xué)習(xí)率也可以有效收斂。MSE損失的梯度隨損失增大而增大,而損失趨于0時(shí)則會減小。這使得在訓(xùn)練結(jié)束時(shí),使用MSE模型的結(jié)果會更精確。


        根據(jù)不同情況選擇損失函數(shù)

        如果異常點(diǎn)代表在商業(yè)中很重要的異常情況,并且需要被檢測出來,則應(yīng)選用MSE損失函數(shù)。相反,如果只把異常值當(dāng)作受損數(shù)據(jù),則應(yīng)選用MAE損失函數(shù)。



        這里L(fēng)1損失和L2損失只是MAE和MSE的別稱。總而言之,處理異常點(diǎn)時(shí),L1損失函數(shù)更穩(wěn)定,但它的導(dǎo)數(shù)不連續(xù),因此求解效率較低。L2損失函數(shù)對異常點(diǎn)更敏感,但通過令其導(dǎo)數(shù)為0,可以得到更穩(wěn)定的封閉解。


        二者兼有的問題是:在某些情況下,上述兩種損失函數(shù)都不能滿足需求。例如,若數(shù)據(jù)中90%的樣本對應(yīng)的目標(biāo)值為150,剩下10%在0到30之間。那么使用MAE作為損失函數(shù)的模型可能會忽視10%的異常點(diǎn),而對所有樣本的預(yù)測值都為150。


        這是因?yàn)槟P蜁粗形粩?shù)來預(yù)測。而使用MSE的模型則會給出很多介于0到30的預(yù)測值,因?yàn)槟P蜁虍惓|c(diǎn)偏移。上述兩種結(jié)果在許多商業(yè)場景中都是不可取的。


        這些情況下應(yīng)該怎么辦呢?最簡單的辦法是對目標(biāo)變量進(jìn)行變換。而另一種辦法則是換一個(gè)損失函數(shù),這就引出了下面要講的第三種損失函數(shù),即Huber損失函數(shù)。


        Huber損失,平滑的平均絕對誤差

        Huber損失對數(shù)據(jù)中的異常點(diǎn)沒有平方誤差損失那么敏感。它在0也可微分。本質(zhì)上,Huber損失是絕對誤差,只是在誤差很小時(shí),就變?yōu)槠椒秸`差。誤差降到多小時(shí)變?yōu)槎握`差由超參數(shù)δ(delta)來控制。當(dāng)Huber損失在[0-δ,0+δ]之間時(shí),等價(jià)為MSE,而在[-∞,δ]和[δ,+∞]時(shí)為MAE。


        Huber損失(Y軸)與預(yù)測值(X軸)圖示。真值取0


        這里超參數(shù)delta的選擇非常重要,因?yàn)檫@決定了你對與異常點(diǎn)的定義。當(dāng)殘差大于delta,應(yīng)當(dāng)采用L1(對較大的異常值不那么敏感)來最小化,而殘差小于超參數(shù),則用L2來最小化。


        04

        為何要使用Huber損失?




        使用MAE訓(xùn)練神經(jīng)網(wǎng)絡(luò)最大的一個(gè)問題就是不變的大梯度,這可能導(dǎo)致在使用梯度下降快要結(jié)束時(shí),錯(cuò)過了最小點(diǎn)。而對于MSE,梯度會隨著損失的減小而減小,使結(jié)果更加精確。


        在這種情況下,Huber損失就非常有用。它會由于梯度的減小而落在最小值附近。比起MSE,它對異常點(diǎn)更加魯棒。因此,Huber損失結(jié)合了MSE和MAE的優(yōu)點(diǎn)。但是,Huber損失的問題是我們可能需要不斷調(diào)整超參數(shù)delta。



        05

        Log-Cosh損失




        Log-cosh是另一種應(yīng)用于回歸問題中的,且比L2更平滑的的損失函數(shù)。它的計(jì)算方式是預(yù)測誤差的雙曲余弦的對數(shù)。


        Log-cosh損失(Y軸)與預(yù)測值(X軸)圖示。真值取0

        優(yōu)點(diǎn):對于較小的x,log(cosh(x))近似等于(x^2)/2,對于較大的x,近似等于abs(x)-log(2)。這意味著‘logcosh’基本類似于均方誤差,但不易受到異常點(diǎn)的影響。它具有Huber損失所有的優(yōu)點(diǎn),但不同于Huber損失的是,Log-cosh二階處處可微。


        為什么需要二階導(dǎo)數(shù)?許多機(jī)器學(xué)習(xí)模型如XGBoost,就是采用牛頓法來尋找最優(yōu)點(diǎn)。而牛頓法就需要求解二階導(dǎo)數(shù)(Hessian)。因此對于諸如XGBoost這類機(jī)器學(xué)習(xí)框架,損失函數(shù)的二階可微是很有必要的。


        XgBoost中使用的目標(biāo)函數(shù)。注意對一階和二階導(dǎo)數(shù)的依賴性


        但Log-cosh損失也并非完美,其仍存在某些問題。比如誤差很大的話,一階梯度和Hessian會變成定值,這就導(dǎo)致XGBoost出現(xiàn)缺少分裂點(diǎn)的情況。

        Huber和Log-cosh損失函數(shù)的Python代碼:



        06
        分位數(shù)損失




        在大多數(shù)現(xiàn)實(shí)世界預(yù)測問題中,我們通常希望了解預(yù)測中的不確定性。清楚預(yù)測的范圍而非僅是估計(jì)點(diǎn),對許多商業(yè)問題的決策很有幫助。


        當(dāng)我們更關(guān)注區(qū)間預(yù)測而不僅是點(diǎn)預(yù)測時(shí),分位數(shù)損失函數(shù)就很有用。使用最小二乘回歸進(jìn)行區(qū)間預(yù)測,基于的假設(shè)是殘差(y-y_hat)是獨(dú)立變量,且方差保持不變。


        一旦違背了這條假設(shè),那么線性回歸模型就不成立。但是我們也不能因此就認(rèn)為使用非線性函數(shù)或基于樹的模型更好,而放棄將線性回歸模型作為基線方法。這時(shí),分位數(shù)損失和分位數(shù)回歸就派上用場了,因?yàn)榧幢銓τ诰哂凶兓讲罨蚍钦龖B(tài)分布的殘差,基于分位數(shù)損失的回歸也能給出合理的預(yù)測區(qū)間。


        下面讓我們看一個(gè)實(shí)際的例子,以便更好地理解基于分位數(shù)損失的回歸是如何對異方差數(shù)據(jù)起作用的。


        ****分位數(shù)回歸與最小二乘回歸****

        左:b/wX1和Y為線性關(guān)系。具有恒定的殘差方差。

        右:b/wX2和Y為線性關(guān)系,但Y的方差隨著X2增加。(異方差)


        橙線表示兩種情況下OLS的估值

        分位數(shù)回歸。虛線表示基于0.05和0.95分位數(shù)損失函數(shù)的回歸


        附上圖中所示分位數(shù)回歸的代碼:

        https://github.com/groverpr/Machine-Learning/blob/master/notebooks/09_Quantile_Regression.ipynb

        ****理解分位數(shù)損失函數(shù)****


        如何選取合適的分位值取決于我們對正誤差和反誤差的重視程度。損失函數(shù)通過分位值(γ)對高估和低估給予不同的懲罰。例如,當(dāng)分位數(shù)損失函數(shù)γ=0.25時(shí),對高估的懲罰更大,使得預(yù)測值略低于中值。

        γ是所需的分位數(shù),其值介于0和1之間。

        分位數(shù)損失(Y軸)與預(yù)測值(X軸)圖示。Y的真值為0

        這個(gè)損失函數(shù)也可以在神經(jīng)網(wǎng)絡(luò)或基于樹的模型中計(jì)算預(yù)測區(qū)間。以下是用Sklearn實(shí)現(xiàn)梯度提升樹回歸模型的示例。

        使用分位數(shù)損失(梯度提升回歸器)預(yù)測區(qū)間


        上圖表明:在sklearn庫的梯度提升回歸中使用分位數(shù)損失可以得到90%的預(yù)測區(qū)間。其中上限為γ=0.95,下限為γ=0.05。



        07
        對比研究




        為了證明上述所有損失函數(shù)的特點(diǎn),讓我們來一起看一個(gè)對比研究。首先,我們建立了一個(gè)從sinc(x)函數(shù)中采樣得到的數(shù)據(jù)集,并引入了兩項(xiàng)人為噪聲:高斯噪聲分量ε?N(0,σ2)和脈沖噪聲分量ξ?Bern(p)。


        加入脈沖噪聲是為了說明模型的魯棒效果。以下是使用不同損失函數(shù)擬合GBM回歸器的結(jié)果。



        連續(xù)損失函數(shù):


        A:MSE損失函數(shù);
        B:MAE損失函數(shù);
        C:Huber損失函數(shù);
        D:分位數(shù)損失函數(shù)。將一個(gè)平滑的GBM擬合成有噪聲的sinc(x)數(shù)據(jù)的示例:
        E:原始sinc(x)函數(shù);
        F:具有MSE和MAE損失的平滑GBM;
        G:具有Huber損失的平滑GBM,且δ={4,2,1};
        H:具有分位數(shù)損失的平滑的GBM,且α={0.5,0.1,0.9}。



        仿真對比的一些觀察結(jié)果:

        • MAE損失模型的預(yù)測結(jié)果受脈沖噪聲的影響較小,而MSE損失函數(shù)的預(yù)測結(jié)果受此影響略有偏移。

        • Huber損失模型預(yù)測結(jié)果對所選超參數(shù)不敏感。

        • 分位數(shù)損失模型在合適的置信水平下能給出很好的估計(jì)。


        最后,讓我們將所有損失函數(shù)都放進(jìn)一張圖,我們就得到了下面這張漂亮的圖片!它們的區(qū)別是不是一目了然了呢~

        好消息!

        小白學(xué)視覺知識星球

        開始面向外開放啦??????




        下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
        在「小白學(xué)視覺」公眾號后臺回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

        下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目52講
        小白學(xué)視覺公眾號后臺回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計(jì)數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺。

        下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
        小白學(xué)視覺公眾號后臺回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

        交流群


        歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計(jì)算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


        瀏覽 67
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            少妇下岗被迫献身h | 办公室挺进美艳老师后臀 | 新婚之夜初次的呻吟嗯 | 欧美成人高清视频 | 仙尊呻吟双腿大开h | 福利视频三区 | 四个黑人玩一个少妇四p | 欧美大黑屄 | 一级日韩一级欧美 | 亚洲欧美另类图片小说 |