深度學(xué)習(xí)時代的機器視覺
點擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達
本文轉(zhuǎn)自:新機器視覺
由譚鐵牛院士領(lǐng)銜的中國圖象圖形學(xué)學(xué)會將于6月2日-4日舉辦“圖象圖形學(xué)前沿講習(xí)班”,第一期主題是“深度學(xué)習(xí)+視覺大數(shù)據(jù)”,主要講述深度學(xué)習(xí)在計算機視覺中的應(yīng)用,此次活動由中科院自動化所的王亮研究員擔(dān)任學(xué)術(shù)主任,邀請6位國家杰出青年基金獲得者、4位教育部長江學(xué)者特聘教授、3位國家優(yōu)秀杰出青年基金獲得者共聚一堂,講述深度學(xué)習(xí)在計算機視覺前沿科技中的研究和應(yīng)用。

在上世紀50年代,數(shù)學(xué)家圖靈提出判斷機器是否具有人工智能的標(biāo)準:圖靈測試。圖靈測試是指測試者在與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試后,如果有超過30%的測試者不能確定出被測試者是人還是機器,那么這臺機器就通過了測試,并被認為具有人類智能。
圖靈測試一詞來源于計算機科學(xué)和密碼學(xué)的先驅(qū)阿蘭·麥席森·圖靈寫于1950年的一篇論文《計算機器與智能》,其中30%是圖靈對2000年時的機器思考能力的一個預(yù)測,但是從圖靈測試提出來開始到本世紀初,50多年時間有無數(shù)科學(xué)家提出很多機器學(xué)習(xí)的算法,試圖讓計算機具有與人一樣的智力水平,但直到2006年深度學(xué)習(xí)算法的成功,才帶來了一絲解決的希望。
對于視覺算法來說,大致可以分為以下4個步驟:圖像預(yù)處理、特征提取、特征篩選、推理預(yù)測與識別。計算機視覺可以說是機器學(xué)習(xí)在視覺領(lǐng)域的應(yīng)用,所以計算機視覺在采用這些機器學(xué)習(xí)方法的時候,不得不自己設(shè)計前面3個部分。但對任何人來說這都是一個比較難的任務(wù)。
傳統(tǒng)的計算機識別方法把特征提取和分類器設(shè)計分開來做,然后在應(yīng)用時再合在一起,比如如果輸入是一個摩托車圖像的話,首先要有一個特征表達或者特征提取的過程,然后把表達出來的特征放到學(xué)習(xí)算法中進行分類的學(xué)習(xí)。

過去20年中出現(xiàn)了不少優(yōu)秀的特征算子,比如最著名的SIFT算子,即所謂的對尺度旋轉(zhuǎn)保持不變的算子。它被廣泛地應(yīng)用在圖像比對,特別是所謂的structure from motion這些應(yīng)用中,有一些成功的應(yīng)用例子。另一個是HoG算子,它可以提取物體,比較魯棒的物體邊緣,在物體檢測中扮演著重要的角色。
這些算子還包括Textons,Spin image,RIFT和GLOH,都是在深度學(xué)習(xí)誕生之前或者深度學(xué)習(xí)真正的流行起來之前,占領(lǐng)視覺算法的主流。
這些特征和一些特定的分類器組合取得了一些成功或半成功的例子,基本達到了商業(yè)化的要求但還沒有完全商業(yè)化。比如指紋識別算法、基于Haar的人臉檢測算法、基于HoG特征的物體檢測。但這種成功例子太少了,因為手工設(shè)計特征需要大量的經(jīng)驗,需要你對這個領(lǐng)域和數(shù)據(jù)特別了解,然后設(shè)計出來特征還需要大量的調(diào)試工作。說白了就是需要一點運氣。
另一個難點在于,你不只需要手工設(shè)計特征,還要在此基礎(chǔ)上有一個比較合適的分類器算法。同時設(shè)計特征然后選擇一個分類器,這兩者合并達到最優(yōu)的效果,幾乎是不可能完成的任務(wù)。
深度學(xué)習(xí)的前世
我們不禁要問:似乎卷積神經(jīng)網(wǎng)絡(luò)設(shè)計也不是很復(fù)雜,98年就已經(jīng)有一個比較像樣的雛形了。自由換算法和理論證明也沒有太多進展。那為什么時隔20年,卷積神經(jīng)網(wǎng)絡(luò)才能卷土重來,占領(lǐng)主流?
這一問題與卷積神經(jīng)網(wǎng)絡(luò)本身的技術(shù)關(guān)系不太大,與其它一些客觀因素有關(guān)。
首先,深度卷積神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)進行訓(xùn)練。網(wǎng)絡(luò)深度太淺的話,識別能力往往不如一般的淺層模型,比如SVM或者boosting;如果做得很深,就需要大量數(shù)據(jù)進行訓(xùn)練,否則機器學(xué)習(xí)中的過擬合將不可避免。而2006年開始,正好是互聯(lián)網(wǎng)開始大量產(chǎn)生各種各樣的圖片數(shù)據(jù)的時候,即視覺大數(shù)據(jù)開始爆發(fā)式地增長。
另外一個條件是運算能力。卷積神經(jīng)網(wǎng)絡(luò)對計算機的運算要求比較高,需要大量重復(fù)可并行化的計算,在當(dāng)時CPU只有單核且運算能力比較低的情況下,不可能進行個很深的卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。隨著GPU計算能力的增長,卷積神經(jīng)網(wǎng)絡(luò)結(jié)合大數(shù)據(jù)的訓(xùn)練才成為可能。
最后一點就是人和。卷積神經(jīng)網(wǎng)絡(luò)有一批一直在堅持的科學(xué)家(如Lecun)才沒有被沉默,才沒有被海量的淺層方法淹沒。最后終于看到卷積神經(jīng)網(wǎng)絡(luò)占領(lǐng)主流的曙光。
人臉識別方面,工作比較超前的是湯曉鷗教授,他們提出的DeepID算法在LWF上做得比較好。最新的DeepID-3算法,在LWF達到了99.53%準確度,與肉眼識別結(jié)果相差無幾。
物體檢測方面,2014年的Region CNN算法、2015年的Faster R-CNN方法、FACEBOOK提出來的YOLO網(wǎng)絡(luò)、在arXiv上出現(xiàn)的最新算法叫Single Shot MultiBox Detector在識別精度和速度上均與較大提升。
物體跟蹤方面,DeepTrack算法是第一在線用深度學(xué)習(xí)進行跟蹤的文章,當(dāng)時超過了其它所有的淺層算法。此后越來越多的深度學(xué)習(xí)跟蹤算法提出。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

