如何用決策樹模型做數(shù)據(jù)分析?


簡(jiǎn)單:邏輯相對(duì)簡(jiǎn)單,整個(gè)算法沒有更復(fù)雜的邏輯,只是對(duì)節(jié)點(diǎn)進(jìn)行分叉; 高效:模型訓(xùn)練速度較快; 強(qiáng)解釋性:模型的判斷邏輯可以用語言清晰的表達(dá)出來,比如上述決策樹案例中的判斷,就可以直接用語言表述成:脫離水不能生存的沒有腳蹼的動(dòng)物,我們判斷它是魚;
監(jiān)督分層; 驅(qū)動(dòng)力分析:某個(gè)因變量指標(biāo)受多個(gè)因素所影響,分析不同因素對(duì)因變量驅(qū)動(dòng)力的強(qiáng)弱(驅(qū)動(dòng)力指相關(guān)性,不是因果性); 預(yù)測(cè):根據(jù)模型進(jìn)行分類的預(yù)測(cè);
熵是什么?



信息增益


我們繼續(xù)用上一篇文章《如何用線性回歸模型做數(shù)據(jù)分析》中的共享單車服務(wù)滿意分?jǐn)?shù)據(jù)集來做案例,分析哪一類人群更加偏向于成為公司的推薦者,我們需要分析用戶特征,更好的區(qū)分出推薦者。




樹的深度 — 如規(guī)定樹的深度不能超過3
葉子結(jié)點(diǎn)樣本數(shù) — 如葉子結(jié)點(diǎn)樣本數(shù)不能小于10
信息增益 — 如每一個(gè)分叉的信息增益不能小于0.2(R中的默認(rèn)值)
決策樹在數(shù)據(jù)分析中的實(shí)戰(zhàn)流程







模型建立后,可以將模型用作分類預(yù)測(cè); 決策樹不只可應(yīng)用于預(yù)測(cè)量為分類變量,還可應(yīng)用于數(shù)值型因變量,只需將熵改為連續(xù)變量的方差; 特征劃分的方法除了信息增益方法外,還可以用增益率(C4.5決策樹)、基尼指數(shù)(CART決策樹); 剪枝是決策樹算法中防止過擬合的主要手段,分為預(yù)剪枝與后剪枝。預(yù)剪枝指在決策樹生成過程中,對(duì)每個(gè)結(jié)點(diǎn)在劃分前進(jìn)行估計(jì),若當(dāng)前結(jié)點(diǎn)劃分不能使決策樹泛化能力提升則停止劃分。后剪枝指先從訓(xùn)練集生成一顆決策樹,自底向上對(duì)非葉結(jié)點(diǎn)進(jìn)行考察,若該結(jié)點(diǎn)對(duì)應(yīng)的子樹替換為葉結(jié)點(diǎn)能使決策樹泛化能力提升,則該子樹替換為葉結(jié)點(diǎn);
?
? ??
評(píng)論
圖片
表情


