1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        深度學(xué)習(xí)算法(第8期)----卷積神經(jīng)網(wǎng)絡(luò)通俗原理

        共 2873字,需瀏覽 6分鐘

         ·

        2020-08-03 23:31

        上一期,我們一起學(xué)習(xí)了深度學(xué)習(xí)中如何避免過擬合,

        深度學(xué)習(xí)三人行(第7期)----深度學(xué)習(xí)之避免過擬合(正則化)

        接下來我們一起學(xué)習(xí)下網(wǎng)紅網(wǎng)絡(luò)之卷積神經(jīng)網(wǎng)絡(luò)(CNN),我們多多交流,共同進(jìn)步。本期主要內(nèi)容如下:

        • 人的視覺機(jī)制

        • CNN之卷積層

        • CNN之卷積核

        • 特征圖的疊加

        • 小結(jié)

        盡管IBM的深藍(lán)計算機(jī)早在1996年就已經(jīng)打敗國際象棋世界冠軍Garry Kasparov。但是相當(dāng)一段時間內(nèi),計算機(jī)仍不能去識別一些簡單的圖片或者口語識別。那么為什么這些對于我們看似簡單的任務(wù),對于電腦就那么難呢?主要是這些認(rèn)知對于人類來說,發(fā)生在認(rèn)知領(lǐng)域內(nèi),包括視覺,聽覺和大腦內(nèi)的其他感知區(qū)域。當(dāng)這些信號到達(dá)我們的意識層面的時候,已經(jīng)被包裝成了高級的特征。比如,當(dāng)我們看到一只可愛的小狗的時候,我們已經(jīng)不能選擇不看到這個小狗,也不能不去注意它的可愛,所以當(dāng)我們意識到看到這個小狗的時候,它已經(jīng)被包裝了。顯然這不能解釋我們是怎么認(rèn)識小狗的。因此,對于這個問題,我們不能用主觀的意識經(jīng)驗,而是要從感知模塊出發(fā),研究其原理,才能明白是如何認(rèn)知的。

        卷積神經(jīng)網(wǎng)絡(luò)受人大腦視覺皮層原理的啟發(fā)而被發(fā)現(xiàn),并且在上個世紀(jì)80年代用在圖像識別中。由于最近幾年,計算機(jī)計算能力的大幅度提升,數(shù)據(jù)量的暴增以及前幾期我們學(xué)到的技術(shù)的發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)在很多方面的表現(xiàn)已經(jīng)超過了人。比方說圖像搜索,自動駕駛,自動影視分類等,不僅于此,CNN已經(jīng)不再限制于圖像領(lǐng)域了,對于語音識別,自然語言處理等方面也有很優(yōu)秀的變現(xiàn)。當(dāng)然,這期,我們只關(guān)注圖像方面。



        一. 人的視覺機(jī)制

        David H. Hubel 和Torsten Wiesel在上個世紀(jì)50年代末在貓和猴子上面做了一系列實驗,在視覺皮層上方面得出了關(guān)鍵的結(jié)論,并在1981年獲得了諾貝爾生理學(xué)獎。他們發(fā)現(xiàn),視覺皮層的很多神經(jīng)元都有一個小的局部感受野,也就意味著,神經(jīng)元只對有限區(qū)域的感受野上的刺激物做出反應(yīng)。如下圖,局部感受野就是圖中五個虛線的小圓圈。

        不同的感受野可以重疊,他們共同鋪滿整個視野。并且他們發(fā)現(xiàn),一些神經(jīng)元僅僅對橫線有反應(yīng),有一些神經(jīng)元對其他方向的線條有反應(yīng)。有些神經(jīng)元的感受野比較大,能夠整合比較低級的pattern。這個發(fā)現(xiàn)直接導(dǎo)致了一個觀點,那就是高級別的神經(jīng)元的刺激是源于相鄰低級別神經(jīng)元的反應(yīng)。這種強(qiáng)有力的視覺構(gòu)架使得能夠去檢測視野中的復(fù)雜的pattern。

        這項視覺機(jī)制的研究在上個世紀(jì)80年代產(chǎn)生了感知機(jī),后面逐漸發(fā)展成了現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)。1998年Yann LeCun等的一篇介紹LeNet-5構(gòu)架的論文是卷積神經(jīng)網(wǎng)絡(luò)發(fā)展中的一個里程碑。這個網(wǎng)絡(luò)構(gòu)架廣泛用于手寫字體識別,網(wǎng)絡(luò)中有一些是之前學(xué)習(xí)過的,比方說全連接層,sigmoid激活函數(shù)。也有一些我們即將學(xué)到的新的構(gòu)架如卷積層和池化層等。

        為什么不用簡單的有全連接層的dnn網(wǎng)絡(luò)去識別圖片呢?當(dāng)然對于小的圖片還好,但是對于稍微大一點的圖片來說,這就是一個災(zāi)難。比方說對于一個100x100的圖片,那么共有10000個輸入,假如第一層有1000個神經(jīng)元(已經(jīng)被嚴(yán)重限制)的話,那么將會有1000萬個連接。然而,這僅僅是第一層。而CNN用部分連接的方式來解決這個問題。



        二. CNN之卷積層

        CNN中最重要的一部分就是卷積層,第一個卷積層并不是連接輸入圖像的所有像素,只是與感受野中的像素相連,如下圖:

        接著第二個卷積層上的神經(jīng)元連接第一個卷積層的一個局部區(qū)域。這種構(gòu)架使得網(wǎng)絡(luò)在第一層的時候?qū)W⒂趫D像的低級特征,而在下一層的時候整合一些高級別的特征,依次類推。這種構(gòu)架方式和人現(xiàn)實世界中視覺認(rèn)知方式類似,所以CNN在圖像識別領(lǐng)域表現(xiàn)優(yōu)異。在全連接層的DNN中,連接層是由一個長條形式的神經(jīng)元組成,在training的時候需要將二維圖像展成一維的數(shù)據(jù)輸入給網(wǎng)絡(luò)。然而在CNN中,每一層都是二維的,所以輸入輸出的連接就比較方便了。

        那么在卷積神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元是怎么連接的呢?一個在已知層的(i, j)位置上的神經(jīng)元和上一層的誰相連呢?,如下:

        其中f_h和f_w分別為感受野的高和寬。如下圖:

        正如圖中所示,為了保證輸入輸出的大小一致,通常會在輸入的邊界進(jìn)行0擴(kuò)充。

        當(dāng)然也通過跳躍感受野,使得一個小的卷積層連接一個大的輸入層也是可行的,如下圖:

        兩個連續(xù)感受野的舉例叫做stride,上圖中,一個5x7的輸入層連接了一個3x4的層。這里用了3x3的感受野,stride=2。這樣的話上層的(i,j)位置的神經(jīng)元是連接前一層的哪個位置呢?如下:

        其中s_h和s_w分別為水平和豎直的stride。



        三. CNN之卷積核

        一個神經(jīng)元的權(quán)重可以看做是一個感受野大小的圖像,比如下圖:

        上圖顯示了兩個可能的權(quán)重叫做過濾器,也稱作卷積核。左邊的卷積核可以看成一個豎直的線條,神經(jīng)元用這些權(quán)重的時候,將會重點關(guān)注豎線條部分,如左上圖得到的特征圖1,對豎線條有增強(qiáng)作用。而右邊的卷積核可以看作是橫線條,重點關(guān)注橫線條區(qū)域,如有上圖的特征圖2,對橫線條有增強(qiáng)左右。因此一層神經(jīng)元用同一個卷積核,將得到一個特征圖,該特征圖將增強(qiáng)與卷積核相似的區(qū)域。在訓(xùn)練的時候,CNN去尋找最有用的卷積核,并且通過不同的組合得到更復(fù)雜的pattern。



        四. 特征圖的疊加

        目前為止,我們明白了二維圖像的卷積層的原理,事實上,卷積層通常是有幾個尺寸一樣的特征圖組合而成,因此更為精確的展示如下3D圖:

        在一個特征圖中,所有神經(jīng)元共享著相同的參數(shù)(權(quán)重和偏置項),但是不同的特征圖有著不同的參數(shù)。神經(jīng)元的感受野和之前的是一樣的,但是它擴(kuò)展到了前面層的所有特征圖。簡單的說,一個卷積層同時對輸入應(yīng)用多個卷積核。使之有能力在輸入層上檢測多個特征。此外,輸入圖像通常也是有多層組成,比如一張簡單的彩色圖就包括RGB三層,灰度圖有一層,一些特殊圖像可能會有紅外紫外光等多層。注意到不同特征圖的相同位置的神經(jīng)元都是與上一層的相同位置的神經(jīng)元相連接的。用一個公式來表示就是:

        上公示中的z表示當(dāng)前卷積層中的第k張?zhí)卣鲌D中的i行j列的位置的輸出,f_h和f_w是為感受野的尺寸,s_w和s_h為stride的大小,f_n'為上一個卷積層的特征圖的個數(shù)。x為上一個卷積層中第k'張?zhí)卣鲌D中i'行j'列位置的輸出,b為當(dāng)前層中特征圖k的權(quán)重,w為當(dāng)前層的第k張?zhí)卣鲌D的神經(jīng)元與上一層中特征圖k'的u行v列的位置相連的權(quán)重值。如此,我們將特征圖進(jìn)行疊加相連。



        五. 小結(jié)

        今天,我們從人類視覺的感受機(jī)制出發(fā),一起學(xué)習(xí)了卷積層的原理,卷積核如何產(chǎn)生特征圖的以及特征圖是如何進(jìn)行疊加的相關(guān)知識。學(xué)習(xí)的路上,多謝有你。

        (如需更好的了解相關(guān)知識,歡迎加入智能算法社區(qū),在“智能算法”公眾號發(fā)送“社區(qū)”,即可加入算法微信群和QQ群)

        瀏覽 45
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            国产一区二区视频在线 | 欧美亂伦视频网站 | 岛国AV免费看 | 性一交一乱一能一八一片 | 欧美精品入口 | 色婷婷成人做爰A片免费看网站 | 全h全肉1v1各种姿势军婚 | 日本在线黄色电影 | 又黄又爽久久无码 | 午夜福利在线一区 |