圖解 72 個機器學習基礎知識點
1. 機器學習概述
1)什么是機器學習
2)機器學習三要素
(1)數據

(2)模型&算法

3)機器學習發(fā)展歷程
4)機器學習核心技術
5)機器學習基本流程

6)機器學習應用場景

2.機器學習基本名詞


3.機器學習算法分類
1)機器學習算法依托的問題場景


更多監(jiān)督學習的算法模型總結,可以查看ShowMeAI的文章 AI知識技能速查 | 機器學習-監(jiān)督學習(公眾號不能跳轉,本文鏈接見文末)。
更多無監(jiān)督學習的算法模型總結可以查看ShowMeAI的文章 AI知識技能速查 | 機器學習-無監(jiān)督學習。
2)分類問題
了解更多機器學習分類算法:KNN算法、邏輯回歸算法、樸素貝葉斯算法、決策樹模型、隨機森林分類模型、GBDT模型、XGBoost模型、支持向量機模型等。(公眾號不能跳轉,本文鏈接見文末)
3)回歸問題
了解更多機器學習回歸算法:決策樹模型、隨機森林分類模型、GBDT模型、回歸樹模型、支持向量機模型等。

4)聚類問題
了解更多機器學習聚類算法:聚類算法。

5)降維問題
了解更多機器學習降維算法:PCA降維算法。
4.機器學習模型評估與選擇
1)機器學習與數據擬合
2)訓練集與數據集
3)經驗誤差
4)過擬合

5)偏差




8)性能度量指標
(1)回歸問題

(2)分類問題
從一個比較高的角度來認識AUC:仍然以異常用戶的識別為例,高的AUC值意味著,模型在能夠盡可能多地識別異常用戶的情況下,仍然對正常用戶有著一個較低的誤判率(不會因為為了識別異常用戶,而將大量的正常用戶給誤判為異常。
9)評估方法
10)模型調優(yōu)與選擇準則
表達力好的模型,可以較好地對訓練數據中的規(guī)律和模式進行學習;
-
復雜度低的模型,方差較小,不容易過擬合,有較好的泛化表達。
11)如何選擇最優(yōu)的模型
(1)驗證集評估選擇
切分數據為訓練集和驗證集。
對于準備好的候選超參數,在訓練集上進行模型,在驗證集上評估。
(2)網格搜索/隨機搜索交叉驗證
通過網格搜索/隨機搜索產出候選的超參數組。
對參數組的每一組超參數,使用交叉驗證評估效果。
選出效果最好的超參數。
(3)貝葉斯優(yōu)化
-
基于貝葉斯優(yōu)化的超參數調優(yōu)。
??????
評論
圖片
表情

