1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        如何 Get 機器學習必備的數(shù)學技能?(文末贈書)

        共 6588字,需瀏覽 14分鐘

         ·

        2022-07-15 19:57

        西瓜書(《機器學習》,清華大學出版社)和花書(《深度學習》,人民郵電出版社)分別是目前國內(nèi)機器學習、深度學習領(lǐng)域銷量最大的教材。它們的質(zhì)量得到了大家的公認,可是數(shù)學知識不扎實的讀者往往,在閱讀理解中遇到一些困難。


        1

        數(shù)學對機器學習與深度學習的重要性


        經(jīng)典教材學起來難,問題到底出在哪里?拋開作者的內(nèi)容設(shè)計、表述方式不談。相比于普通的編程類書籍,機器學習和深度學習的難度本來就很大,出現(xiàn)這一結(jié)果也是在意料之中的。總結(jié)起來,困難主要是這幾個方面:
        1. 數(shù)學。這兩本書里密集的出現(xiàn)數(shù)學概念和公式,對大部分讀者來說都是很困難的,尤其是不少數(shù)學知識超出了理工科本科“微積分”,“線性代數(shù)”,“概率論與數(shù)理統(tǒng)計”3門課的范圍。陌生的數(shù)學符號和公式讓大家茫然不知所措。
        2. 機器學習和深度學習中的一些思想不易理解。有些復雜的算法,比如支持向量機、反向傳播算法、EM算法、概率圖模型、變分推斷,它們到底解決了什么問題,為什么要這樣做,這些書里解釋的不太清楚,這就造成了讀者不知其所以然。
        3. 抽象。有些機器學習算法是很抽象的,比如流形學習、譜聚類算法等。如果不給出直觀的解釋,也是難以理解的。
        4. 不能和應(yīng)用結(jié)合。很多教材普遍存在的一個問題是沒有講清楚這個方法到底有什么用,應(yīng)該怎么用。
        所有這些問題中,數(shù)學無疑是排在第一位的!因此,要學好機器學習、深度學習,以及強化學習,掌握必需的數(shù)學知識是先決條件。

        2

        西瓜書中的數(shù)學


        先看看西瓜書的情況。西瓜書在附錄里介紹了3部分數(shù)學知識:
        A 矩陣
        B 優(yōu)化
        C 概率分布
        其中,A介紹了矩陣的基本演算,矩陣與向量求導,奇異值分解。B介紹了拉格朗日乘子法,KKT條件,拉格朗日對偶,二次規(guī)劃,半正定規(guī)則,梯度下降法,坐標下降法。C介紹了常見概率分布(包括均勻分布,伯努利分布,二項分布,多項分布,貝塔分布,狄利克雷分布,高斯分布),共軛分布,KL散度。限于篇幅,對于這些內(nèi)容只是粗略的進行了介紹。除非之前學過這些內(nèi)容,否則只靠看西瓜書是很難理解它們的。
        西瓜書涵蓋了機器學習的主體知識,包括有監(jiān)督學習,無監(jiān)督學習,半監(jiān)督學習,強化學習,以及機器學習理論。限于篇幅,作者不可能面面俱到的詳細講解這些算法的原理,尤其是數(shù)學推導與證明。
        西瓜書中所用到的很多數(shù)學知識,相信絕大部分讀者都未曾接觸過,比如:
        接下來看看西瓜書中一些典型的難以理解的地方:
        logistic回歸訓練問題的求解,包括凸優(yōu)化,牛頓法;
        訓練決策樹時用到的熵,信息增益;
        支持向量機推導中所用到的拉格朗日對偶,強對偶,KKT條件;
        貝葉斯分類器這一章中所提到的Gibbs采樣和EM算法之后;
        高斯混合聚類中的EM算法;
        基于圖的半監(jiān)督學習中的拉普拉斯矩陣以及其特征值與特征向量;
        概率圖模型這一章中的MCMC采樣和變分推斷;
        其他的我們就不一一列舉,僅僅這些內(nèi)容,基本上都不在本科數(shù)學講述的范圍之內(nèi),這意味著讀者要先補充至少以下課程的知識:
        • 最優(yōu)化方法

        • 信息論

        • 隨機過程

        • 圖論

        就拿MCMC采樣來說,如果你不知道馬爾可夫過程以及平穩(wěn)分布,細致平衡條件,根本不可能理解這類算法的原理,包括為什么要這樣做。而你如果不理解KL散度,就沒法知道變分推斷到底在干什么。

        3

        花書中的數(shù)學


        與機器學習相比,深度學習的大部分內(nèi)容對數(shù)學要求并沒有那么高。如果是以工程應(yīng)用和非理論的學術(shù)研究為目的,主要也就是線性代數(shù)的一些運算,各種損失函數(shù),梯度下降法,反向傳播算法。比起機器學習中的支持向量機,EM算法,概率圖模型,概率推斷,各種采樣算法,要容易的多?;〞押靡恍陂_頭幾章就用較大的篇幅介紹了數(shù)學知識,基本上覆蓋了深度學習的主要數(shù)學知識點。包括:
        • 線性代數(shù)

        • 概率論與信息論

        • 數(shù)值計算




        大家應(yīng)該能感覺到,花書的第1部分“應(yīng)用數(shù)學與機器學習基礎(chǔ)”和第2部分“深度網(wǎng)絡(luò):現(xiàn)代實踐”相對容易理解,只要有一些數(shù)學基礎(chǔ),都能讀懂。問題出在第3部分-深度學習研究:
        • 線性因子模型

        • 自編碼器

        • 表示學習

        • 深度學習中的結(jié)構(gòu)化概率模型

        • 蒙特卡洛方法

        • 直面配分函數(shù)

        • 近似推斷

        • 深度生成模型

        這幾章的數(shù)學知識明顯增多,而且有很多是大家不熟悉的。又出現(xiàn)了令大家普遍頭疼的內(nèi)容,比如:
        • MCMC采樣算法;

        • EM算法;

        • 近似推斷和變分推斷;

        • 變分法;

        • RBM的訓練算法

        如果不清楚混合模型,比如高斯混合模型,以及最大似然估計,最大后驗概率估計,就沒法理解EM算法到底解決了什么問題,為什么要這樣做,以及算法為什么能夠收斂。
        如果沒有理解泛函的概概念,也沒法理解變分法的思想,以及歐拉-拉格朗日方程的推導過程?;〞衅毡橛玫降亩蠹矣譀]有學過的數(shù)學知識,無外乎還是這幾門課:
        • 最優(yōu)化方法

        • 信息論

        • 隨機過程

        • 圖論




        從上面總結(jié)的內(nèi)容來看,如果不打好數(shù)學基礎(chǔ),想要學好花書和西瓜書是不現(xiàn)實的。


        4

        究竟需要哪些數(shù)學知識


        我們先看典型的機器學習算法所用到的數(shù)學知識點,如下表所示。限于篇幅,這里沒有列出強化學習、機器學習理論、自動化機器學習(AutoML)等內(nèi)容所用的數(shù)學知識。

        算法
        所用的數(shù)學知識
        分類與回歸
        貝葉斯分類器
        隨機變量,貝葉斯公式,正態(tài)分布,最大似然估計
        決策樹
        熵,信息增益,Gini系數(shù)
        KNN算法
        距離函數(shù)
        線性判別分析
        散布矩陣,逆矩陣,廣義瑞利商,拉格朗日乘數(shù)法,協(xié)方差矩陣,特征值與特征向量,標準正交基
        人工神經(jīng)網(wǎng)絡(luò)
        矩陣運算,鏈式法則,交叉熵,歐氏距離,梯度下降法
        支持向量機
        點到超平面的距離,拉格朗日對偶,強對偶,Slater條件,KKT條件,凸優(yōu)化,核函??數(shù),Mercer條件,SMO算法
        logistic回歸與softmax回歸
        條件概率,伯努利分布,多項分布,最大似然估計,凸優(yōu)化,梯度下降法,牛頓法
        隨機森林
        隨機抽樣,方差
        Boosting算法
        牛頓法,泰勒公式
        線性回歸,嶺回歸,LASSO回歸
        均方誤差,最小二乘法,向量范數(shù),梯度下降法,凸優(yōu)化
        數(shù)據(jù)降維
        主成分分析
        均方誤差,協(xié)方差矩陣,拉格朗日乘數(shù)法,協(xié)方差矩陣,特征值與特征向量,標準正交基
        核主成分分析
        核函數(shù)
        流形學習
        線性組合,均方誤差,相似度圖,拉普拉斯矩陣,特征值與特征向量,拉格朗日乘數(shù)法,KL散度,t分布,測地線與測地距離
        距離度量學習
        NCA
        概率,梯度下降法
        ITML
        KL散度,帶約束的優(yōu)化
        LMNN
        線性變換,梯度下降法

        高斯混合模型與EM算法
        正態(tài)分布,多項分布,邊緣分布,條件分布,數(shù)學期望,Jensen不等式,最大似然估計,最大后驗概率估計,拉格朗日乘數(shù)法

        高斯過程回歸
        正態(tài)分布,條件分布,高斯過程
        概率圖模型
        HMM
        馬爾可夫過程,條件分布,邊緣分布,最大似然估計,EM算法,拉格朗日乘數(shù)法
        CRF
        圖,條件概率,最大似然估計,擬牛頓法
        貝葉斯網(wǎng)絡(luò)
        圖,條件概率,貝葉斯公式,最大似然估計
        聚類
        K均值算法
        EM算法
        譜聚類
        圖,拉普拉斯矩陣,特征值與特征向量
        Mean Shift算法
        核密度估計,梯度下降法
        深度生成模型
        GAN
        概率分布變換,KL散度,JS散度,互信息,梯度下降法
        VAE
        概率分布變換,KL散度,變分推斷,梯度下降法

        變分推斷
        KL散度,變分法,貝葉斯公式

        MCMC采樣
        馬爾可夫鏈,平穩(wěn)分布,細致平衡條件,條件概率
        從這張表可以看出來,頻繁用到的知識點就是向量和矩陣的運算,梯度下降法等優(yōu)化算法,概率,信息論中的模型概念。整體來說,是下面這幾門課的內(nèi)容:
        • 微積分

        • 線性代數(shù)

        • 概率論

        • 最優(yōu)化方法

        • 信息論

        • 隨機過程

        • 圖論

        下面這張圖列出了這些知識的整體結(jié)構(gòu)。其中線性代數(shù)與微積分是基礎(chǔ),其他的課程都是建立在它們之上的。最優(yōu)化方法嚴重依賴于微積分(尤其是多元函數(shù)微積分)的知識,信息論與隨機過程是概率論的延伸。
        下面我們分別來介紹這幾門課在機器學習中到底用到了哪些內(nèi)容。

        微積分


        微積分由一元函數(shù)微積分、多元函數(shù)微積分兩部分構(gòu)成,它是整個高等數(shù)學的基石。通常情況下,機器學習需要得到一個函數(shù)(模型,或者說假設(shè)),既然是函數(shù),那自然就離不開微積分了。微積分為我們研究函數(shù)的性質(zhì),包括單調(diào)性、凹凸性、以及極值提供了理論依據(jù)。同時它也是學習概率論、信息論、最優(yōu)化方法等后續(xù)課程的基礎(chǔ)。
        在機器學習中,最應(yīng)該被記住的微積分知識點是下面的兩張圖。第一張圖是微分學:
        微分學中最應(yīng)該被記住的是鏈式法則和泰勒公式。后者是理解在機器學習中使用最多的梯度下降法、牛頓法、擬牛頓法等數(shù)值優(yōu)化算法推導的基礎(chǔ),前者為計算各種目標函數(shù)的導數(shù)提供了依據(jù)。借助于雅克比矩陣,多元函數(shù)的鏈式法則有簡介而優(yōu)雅的表達,多元函數(shù)反函數(shù)求導公式可以與一元函數(shù)反函數(shù)求導公式達成形式上的統(tǒng)一。借助于梯度、Hessian矩陣以及向量內(nèi)積、二次型,多元函數(shù)的泰勒公式與一元函數(shù)的泰勒公式可以達成形式上的統(tǒng)一。
        第二張圖是積分學:
        積分學中最關(guān)鍵的是積分換元公式,借助于雅克比行列式,可以與一元函數(shù)定積分的換元公式達成形式上的統(tǒng)一。積分換元公式在后面的概率論(如概率分布變換,逆變換采樣算法),信息論(如多維正態(tài)分布的聯(lián)合熵)等課程中有廣泛的應(yīng)用,務(wù)必要掌握。

        線性代數(shù)

        接下來看線性代數(shù)。線性代數(shù)對于機器學習是至關(guān)重要的。機器學習算法的輸入、輸出、中間結(jié)果通常為向量、矩陣。使用線性代數(shù)可以簡化問題的表達,用一個矩陣乘法,比寫成多重求和要簡潔明了得多。線性代數(shù)是學習后續(xù)數(shù)學課程的基礎(chǔ)。它可以與微積分結(jié)合,研究多元函數(shù)的性質(zhì)。線性代數(shù)在概率論中也被使用,比如隨機向量,協(xié)方差矩陣。線性代數(shù)在圖論中亦有應(yīng)用-如圖的鄰接矩陣,拉普拉斯矩陣。在隨機過程中同樣有應(yīng)用-如狀態(tài)轉(zhuǎn)移矩陣。下面的圖列出了線性代數(shù)的核心知識結(jié)構(gòu):
        向量與矩陣是線性代數(shù)中的基本計算對象,這門課基本上圍繞著它們而展開。特征值與特征向量是機器學習中使用頻率僅次于向量和矩陣的知識點,它連接其了眾多的知識點,決定了矩陣的若干重要性質(zhì)。

        概率論

        概率論對于機器學習來說也是至關(guān)重要的,它是一種重要的工具。如果將機器學習算法的輸入、輸出看作隨機變量/向量,則可以用概率論的觀點對問題進行建模。使用概率論的一個好處是可以對不確定性進行建模,這對于某些問題是非常有必要的。另外,它還可以挖掘變量之間的概率依賴關(guān)系,實現(xiàn)因果推理。概率論為某些隨機算法-如蒙特卡洛算法、遺傳算法,以及隨機數(shù)生成算法-包括基本隨機數(shù)生成、以及采樣算法提供了理論依據(jù)和指導。最后,概率論也是信息論,隨機過程的先導課程。下面這張圖清晰地列出了概率論的核心知識:
        下面這張圖是對機器學習中概率模型的總結(jié):
        從這張圖可以清晰的看出頻繁使用的概率論知識點,最重要的莫過于條件概率,貝葉斯公式,正態(tài)分布,最大似然估計。

        最優(yōu)化方法

        最優(yōu)化方法在機器學習中處于中心地位。幾乎所有機器學習算法最后都歸結(jié)于求解最優(yōu)化問題,從而確定模型參數(shù),或直接獲得預測結(jié)果。前者的典型代表是有監(jiān)督學習,通過最小化損失函數(shù)或優(yōu)化其他類型的目標函數(shù)確定模型的參數(shù);后者的典型代表是數(shù)據(jù)降維算法,通過優(yōu)化某種目標函數(shù)確定降維后的結(jié)果,如主成分分析。下面這張圖列出了最優(yōu)化方法的核心知識:

        信息論

        信息論是概率論的延伸,在機器學習與深度學習中通常用于構(gòu)造目標函數(shù),以及對算法進行理論分析與證明。在機器學習尤其是深度學習中,信息論的知識隨處可見,比如:
        1. 決策樹的訓練過程中需要使用熵作為指標
        2. 在深度學習中經(jīng)常會使用交叉熵、KL散度、JS散度、互信息等概念
        3. 變分推斷的推導需要以KL散度為基礎(chǔ)
        4. 距離度量學習、流形降維等算法也需要信息論的知識
        總體來說,在機器學習中用得最多的是熵,交叉熵,KL散度,JS散度,互信息,條件熵等。下面這張圖列出了信息論的核心知識:
        熵是最基本的概念,推廣到多個概率分布,可以得到交叉熵,KL散度,以及JS散度。推廣到多個隨機變量,可以得到互信息,條件熵。

        隨機過程

        隨機過程同樣是概率論的延伸。在機器學習中,隨機過程被用于概率圖模型、強化學習、以及貝葉斯優(yōu)化等方法。不理解馬爾可夫過程,你將對MCMC采樣算法一籌莫展。下面這張圖列出了機器學習中隨機過程的核心知識:
        在機器學習中所用的主要是馬爾可夫過程和高斯過程。隱馬爾可夫過程,馬爾可夫決策過程都是它的延伸。平穩(wěn)分布、細致平衡條件也是理解MCMC采樣的核心基礎(chǔ)。

        圖論

        在機器學習中,概率圖模型是典型的圖結(jié)構(gòu)。流形降維算法與譜聚類算法均使用了譜圖理論。計算圖是圖的典型代表,圖神經(jīng)網(wǎng)絡(luò)作為一種新的深度學習模型,與圖論也有密切的關(guān)系。下面這張圖列出了圖論的整體知識結(jié)構(gòu):
        這里相等難以理解的是譜圖理論。譜圖理論的核心是拉普拉斯矩陣,歸一化拉普拉斯矩陣,理解它們需要扎實的線性代數(shù)基礎(chǔ)。

        4

        《機器學習的數(shù)學》是你的一個好選擇


        如何解決數(shù)學問題?這里我們給出了一個精確而實用的答案,先學下面這本書:
        這本書用最小的篇幅精準的覆蓋了機器學習、深度學習、強化學習所需的核心數(shù)學知識。章節(jié)結(jié)構(gòu)設(shè)計科學合理,不需要的東西,統(tǒng)統(tǒng)不講,這樣可以有效的減小讀者的學習成本。
        數(shù)學抽象難懂,是幾乎所有讀者都會面臨的一個問題。如何把一些概念、理論清晰地講述出來,是一個非常有挑戰(zhàn)性的話題。在這一方面,作者進行了大量的思考與設(shè)計,力求用淺顯易懂的語言把晦澀的知識講述清楚,并用實例、圖/表、程序代碼等形式把抽象的知識具象化,確保讀者理解起來無困難。下面來看幾個例子。
        1. 使用圖/表等方式降低理解難度。
        很多讀者覺得反向傳播算法不易理解,不清楚為什么要這樣做,到底解決了什么問題。書中條理清晰地闡述了反向傳播算法的原理,推導簡潔而易懂,同時附以下面的圖讓讀者理解算法的核心步驟與本質(zhì)。
              2. 使用實例降低理解難度
        書中大量使用了在機器學習中、實際生活中的例子進行講解,化抽象為具體。以馬爾可夫決策過程為例,強化學習中的馬爾可夫決策過程一直讓很多讀者覺得難解。相信很多讀者會有下面的疑問:
        1. 強化學習中為什么需要用馬爾可夫決策過程進行建模?
        2. 為什么需要用狀態(tài)轉(zhuǎn)移概率?
        3. 為什么獎勵函數(shù)與狀態(tài)轉(zhuǎn)移有關(guān)?
        4. 確定性策略,非確定性策略到底是怎么回事?
        書中對馬爾可夫決策過程進行了清晰的闡述,并以人工降雨這種大家都能理解的生活例子進行說明。
           3.對難以理解的知識點有清晰、透徹的解釋
        機器學習中所用的數(shù)學知識,有不少是公認的難以理解的。比如正交變換,QR算法,奇異值分解,擬牛頓法,拉格朗日對偶,概率分布變換等。這些數(shù)學概念的定義,推導中的關(guān)鍵步驟,以及為何要這樣做,在很多教材中并沒有交代。本書對這些難點的講解進行了精心的設(shè)計。
        以Householder變換為例,它在矩陣分解、特征值計算等任務(wù)中具有重要的作用。不少讀者在學習矩陣分析、數(shù)值分析等課程的時候可能會有這樣的疑問:
        1. 為什么用Householder變換可以將矩陣變換為近似對角的矩陣?
        2. Householder變換的變換矩陣是怎樣構(gòu)造的,為什么要這么構(gòu)造?
        3. 為何不直接將對稱矩陣變換為對角矩陣?
        對于這些問題,本書都有清晰的交代。
        4. 令很多人頭疼的變分推斷:
        5. 其他的我們就不再一一列舉。
        一般的數(shù)學教材通常不會講授機器學習的相關(guān)內(nèi)容,而專門的機器學習教材又不會詳細講解數(shù)學知識,二者之間存在一個鴻溝。從更大的層面看,不知數(shù)學有何用,不知學了怎么用,是很多讀者面臨的一個問題。針對這一問題本書也給出了很好的答案:從機器學習的角度講述數(shù)學,從數(shù)學的角度看待機器學習。這是本書的一大特色,全書實現(xiàn)了機器學習與數(shù)學的無縫銜接。對于很多數(shù)學知識,我們會講到它在機器學習中的應(yīng)用;而對于大多數(shù)機器學習算法,我們也會講清它的數(shù)學原理。這些內(nèi)容已經(jīng)涵蓋了機器學習、深度學習、強化學習的核心范圍。讀完本書,讀者對機器學習算法也基本上也有了一個整體的理解。

        4

        配套的高質(zhì)量課程


        在出版這本書的同時,我們還推出了高質(zhì)量的配套課程,由《機器學習的數(shù)學》的作者親自講解,幫你打下堅實的數(shù)學基礎(chǔ)。課程的內(nèi)容與書的內(nèi)容高度貼合,結(jié)構(gòu)設(shè)計科學、合理,我們將為你清晰的講述:
        一元函數(shù)微積分
        線性代數(shù)與矩陣分析
        多元函數(shù)微積分
        最優(yōu)化方法
        概率論
        信息論
        隨機過程
        圖論
        的主體知識。在講授的時候,我們同樣會與它們在機器學習中的應(yīng)用相結(jié)合,實現(xiàn)數(shù)學與機器學習的無縫銜接。為了便于理解,增加動手能力,課程中會有一些Python代碼的講解與實現(xiàn)。結(jié)合課程與這本書,將徹底讓你解決數(shù)學這一難題,為以后的學習、學術(shù)研究,職業(yè)生涯打下堅實的基礎(chǔ)。

        今天我們?yōu)榇蠹姨峁?個名額,贈送這本書給大家!中獎的朋友請記得留下聯(lián)系方式和地址!歡迎大家掃碼參與!

        分享

        收藏

        點贊

        在看


        瀏覽 18
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            亚洲国产日韩在线一区 | 处一女一级a一片 | 潘金莲黄色毛片 | 日穴视频 | 成人无码欧美91大神 | 久久久欧洲 | 爱爱高清无码 | 成人三级电影在线观看 | 成人免费视频入口在线播放 | 性猛交XXXX乱大交孕妇 |