如何用上邏輯回歸讓數(shù)據(jù)分析顯得高大上?
今天我們將學(xué)習(xí)邏輯回歸(logistics regression),由于邏輯回歸是基于線(xiàn)性回歸的特殊變化,我將用最簡(jiǎn)單通俗的語(yǔ)言來(lái)為大家介紹邏輯回歸模型及其應(yīng)用。
邏輯回歸是解決二分類(lèi)問(wèn)題的監(jiān)督學(xué)習(xí)算法,用來(lái)估計(jì)某個(gè)類(lèi)別的概率。其直接預(yù)測(cè)值是表示0-1區(qū)間概率的數(shù)據(jù),基于概率再劃定閾值進(jìn)行分類(lèi),而求解概率的過(guò)程就是回歸的過(guò)程。
?
邏輯回歸應(yīng)用于數(shù)據(jù)分析的場(chǎng)景主要有三種:
驅(qū)動(dòng)力分析:某個(gè)事件發(fā)生與否受多個(gè)因素所影響,分析不同因素對(duì)事件發(fā)生驅(qū)動(dòng)力的強(qiáng)弱(驅(qū)動(dòng)力指相關(guān)性,不是因果性);
預(yù)測(cè):預(yù)測(cè)事件發(fā)生的概率;
分類(lèi):適合做多種分類(lèi)算法、因果分析等的基礎(chǔ)組件;
01
下圖是之前講到的線(xiàn)性回歸模型的數(shù)據(jù)分布,線(xiàn)性回歸是用一條線(xiàn)來(lái)擬合自變量和因變量之間的關(guān)系,我們可以看到其輸出結(jié)果y是連續(xù)的。例如我們想預(yù)測(cè)不同用戶(hù)特征對(duì)所使用產(chǎn)品的滿(mǎn)意分,可以采用線(xiàn)性回歸模型。但是如果我們想根據(jù)這些因素去判斷用戶(hù)的性別,或者是否推薦使用等,之前的線(xiàn)性回歸就不適用了,這時(shí),我們就要用到邏輯回歸進(jìn)行二分類(lèi)了。但是分類(lèi)模型輸出結(jié)果卻需要是離散的,如何把連續(xù)型的y轉(zhuǎn)化為取值范圍0-1的數(shù)值呢?


將自變量特征輸入 定義自變量的線(xiàn)性組合y,即針對(duì)自變量線(xiàn)性回歸 將線(xiàn)性回歸結(jié)果y映射到sigmoid函數(shù),生成一個(gè)0-1范圍取值的函數(shù)概率值 根據(jù)概率值,定義閾值(通常為0.5),判定分類(lèi)結(jié)果的正負(fù) 
02





將邏輯回歸的cost函數(shù)簡(jiǎn)化,即得出:

將邏輯回歸cost函數(shù)帶入目標(biāo)函數(shù)通用形式,即可形成邏輯回歸最終的目標(biāo)函數(shù):

03






? ??
